AI 数据集
精选用于 LLM 训练、微调和评估的数据集。
26 个数据集
Common Crawl
精选PB 级网络爬虫语料库,每月更新。许多 LLM 训练流程的基础数据集。
The Pile
精选EleutherAI 策划的 800GB 多样化开源语言建模数据集,包含 22 个高质量子集。
RedPajama v2
Together AI 创建的 30T token 网络数据集,包含质量信号,用于 LLM 预训练。
FineWeb
精选HuggingFace 清洗去重的 15T token 英语网络数据,性能优于其他网络数据集。
The Stack v2
精选最大的开放代码数据集——来自 Software Heritage 的 67.5TB 数据,覆盖 619 种编程语言。
StarCoder Data
用于训练 StarCoder 模型的代码预训练数据。783GB,覆盖 86 种编程语言。
CodeSearchNet
6 种语言(Go、Java、JS、PHP、Python、Ruby)的代码-自然语言对,包含函数文档字符串。
LAION-5B
精选从网络爬取的 58.5 亿图文对。最大的开放多模态数据集之一。
ShareGPT4V
10 万高质量图文对,包含 GPT4-Vision 生成的详细描述,用于视觉语言训练。
LLaVA-Instruct-150K
GPT-4 生成的 15 万视觉指令微调样本,用于训练 LLaVA 视觉语言模型。
OpenAssistant Conversations
精选35+ 种语言的 16.1 万人工标注助手对话。高质量 RLHF 训练数据。
Stanford Alpaca
GPT-3.5 生成的 5.2 万条指令遵循样本。开创了自我指令微调方法。
UltraChat 200K
20 万多轮对话,覆盖广泛主题,从 150 万完整集合中质量过滤。
WildChat
100 万真实用户与 ChatGPT 的对话及元数据。捕捉多样的真实使用模式。
LMSYS-Chat-1M
精选来自 Chatbot Arena 的 100 万真实对话,覆盖 25+ LLM,包含用户偏好和元数据。
MMLU
精选大规模多任务语言理解——覆盖 57 个学科,从 STEM 到人文。LLM 标准评测基准。
HellaSwag
常识自然语言推理基准——从 4 个选项中选择最合理的续写。测试日常推理能力。
HumanEval
OpenAI 手写的 164 道 Python 编程题。代码生成标准评测基准。
GSM8K
8500 道小学数学题及分步解答。数学推理关键评测基准。
MT-Bench
80 道多轮问题,由 GPT-4 评判。测试 8 个类别的指令遵循能力。
AlpacaEval
使用 GPT-4 作为评判的自动 LLM 评测基准。来自多种来源的 805 条指令。
Wikipedia
精选300+ 种语言的完整维基百科转储。常用于预训练和知识基础。
C4 (Colossal Clean Crawled Corpus)
约 750GB 从 Common Crawl 清洗的英语网络文本。用于训练 T5 等众多模型。
ARC (AI2 Reasoning Challenge)
7700 道小学科学题,分为简单集和挑战集。测试科学推理和世界知识。
MATH
精选12500 道竞赛级数学题,包含分步 LaTeX 解答,覆盖 7 个难度级别。
TheoremQA
800 道定理驱动的问题,覆盖数学、物理、CS 和金融,需要多步推理。
FAQ
这些数据集是如何挑选的?
每个数据集基于社区采用度、引用数、数据质量和对 LLM 训练、微调或评测的实际价值进行筛选。我们优先选择在 HuggingFace 上托管的开放许可数据集。
这些数据集可以商用吗?
许可证因数据集而异——请查看每张卡片上的许可证字段。MIT、Apache 2.0 或 CC-BY 许可的数据集通常可商用。部分数据集如 Alpaca 使用 CC-BY-NC 限制商业使用。
常用的数据格式有哪些?
现代 AI 数据集主要使用 Parquet(列式存储,高效)或 JSONL(每行一个 JSON 对象)格式。HuggingFace Datasets 库可以用一行代码加载这两种格式。