DevTk.AI

AI 数据集

精选用于 LLM 训练、微调和评估的数据集。

26 个数据集

Common Crawl

精选
自然语言处理

PB 级网络爬虫语料库,每月更新。许多 LLM 训练流程的基础数据集。

> 1 PBWARC / WET
CC0 (public domain)

The Pile

精选
自然语言处理

EleutherAI 策划的 800GB 多样化开源语言建模数据集,包含 22 个高质量子集。

800 GBJSONL
MIT

RedPajama v2

自然语言处理

Together AI 创建的 30T token 网络数据集,包含质量信号,用于 LLM 预训练。

30T tokensParquet / JSONL
Apache 2.0

FineWeb

精选
自然语言处理

HuggingFace 清洗去重的 15T token 英语网络数据,性能优于其他网络数据集。

15T tokensParquet
ODC-By

The Stack v2

精选
代码

最大的开放代码数据集——来自 Software Heritage 的 67.5TB 数据,覆盖 619 种编程语言。

67.5 TBParquet
Various (per-file)

StarCoder Data

代码

用于训练 StarCoder 模型的代码预训练数据。783GB,覆盖 86 种编程语言。

783 GBParquet
Various (per-file)

CodeSearchNet

代码

6 种语言(Go、Java、JS、PHP、Python、Ruby)的代码-自然语言对,包含函数文档字符串。

2 GBJSONL
MIT

LAION-5B

精选
多模态

从网络爬取的 58.5 亿图文对。最大的开放多模态数据集之一。

240 TB (images)Parquet + URLs
CC-BY 4.0 (metadata)

ShareGPT4V

多模态

10 万高质量图文对,包含 GPT4-Vision 生成的详细描述,用于视觉语言训练。

~50 GBJSON + Images
CC-BY-NC 4.0

LLaVA-Instruct-150K

多模态

GPT-4 生成的 15 万视觉指令微调样本,用于训练 LLaVA 视觉语言模型。

~300 MBJSON
CC-BY-NC 4.0

OpenAssistant Conversations

精选
指令微调

35+ 种语言的 16.1 万人工标注助手对话。高质量 RLHF 训练数据。

~400 MBParquet
Apache 2.0

Stanford Alpaca

指令微调

GPT-3.5 生成的 5.2 万条指令遵循样本。开创了自我指令微调方法。

~50 MBJSON
CC-BY-NC 4.0

UltraChat 200K

指令微调

20 万多轮对话,覆盖广泛主题,从 150 万完整集合中质量过滤。

~500 MBParquet
MIT

WildChat

指令微调

100 万真实用户与 ChatGPT 的对话及元数据。捕捉多样的真实使用模式。

~5 GBParquet
ODC-By

LMSYS-Chat-1M

精选
指令微调

来自 Chatbot Arena 的 100 万真实对话,覆盖 25+ LLM,包含用户偏好和元数据。

~3 GBParquet
CC-BY-NC 4.0

MMLU

精选
评测

大规模多任务语言理解——覆盖 57 个学科,从 STEM 到人文。LLM 标准评测基准。

~300 MBParquet
MIT

HellaSwag

评测

常识自然语言推理基准——从 4 个选项中选择最合理的续写。测试日常推理能力。

~70 MBParquet
MIT

HumanEval

评测

OpenAI 手写的 164 道 Python 编程题。代码生成标准评测基准。

~1 MBJSONL
MIT

GSM8K

评测

8500 道小学数学题及分步解答。数学推理关键评测基准。

~10 MBParquet
MIT

MT-Bench

评测

80 道多轮问题,由 GPT-4 评判。测试 8 个类别的指令遵循能力。

~5 MBJSON
CC-BY 4.0

AlpacaEval

评测

使用 GPT-4 作为评判的自动 LLM 评测基准。来自多种来源的 805 条指令。

~5 MBJSON
Apache 2.0

Wikipedia

精选
知识

300+ 种语言的完整维基百科转储。常用于预训练和知识基础。

~21 GB (en)Parquet
CC-BY-SA 3.0

C4 (Colossal Clean Crawled Corpus)

知识

约 750GB 从 Common Crawl 清洗的英语网络文本。用于训练 T5 等众多模型。

~750 GBParquet / JSONL
ODC-By

ARC (AI2 Reasoning Challenge)

推理

7700 道小学科学题,分为简单集和挑战集。测试科学推理和世界知识。

~3 MBParquet
CC-BY-SA 4.0

MATH

精选
推理

12500 道竞赛级数学题,包含分步 LaTeX 解答,覆盖 7 个难度级别。

~60 MBJSONL
MIT

TheoremQA

推理

800 道定理驱动的问题,覆盖数学、物理、CS 和金融,需要多步推理。

~5 MBJSON
MIT

FAQ

这些数据集是如何挑选的?

每个数据集基于社区采用度、引用数、数据质量和对 LLM 训练、微调或评测的实际价值进行筛选。我们优先选择在 HuggingFace 上托管的开放许可数据集。

这些数据集可以商用吗?

许可证因数据集而异——请查看每张卡片上的许可证字段。MIT、Apache 2.0 或 CC-BY 许可的数据集通常可商用。部分数据集如 Alpaca 使用 CC-BY-NC 限制商业使用。

常用的数据格式有哪些?

现代 AI 数据集主要使用 Parquet(列式存储,高效)或 JSONL(每行一个 JSON 对象)格式。HuggingFace Datasets 库可以用一行代码加载这两种格式。