Hugging Face 发布 FinePDFs：一个从 PDF 构建的 3 万亿标记数据集

发布于 2025-09-15

主要观点：Hugging Face 推出了最大的全 PDF 公开语料库[FinePDFs]，涵盖 1733 种语言 4.75 亿份文档约 3 万亿 tokens 及 3.65TB 大小，通过多种技术解决从 PDF 提取文本的挑战，涵盖多种语言，训练模型评估显示其性能接近 SmolLM - 3 Web 且结合后性能提升，引发社区对评估的疑问及回应，此数据集对推进长上下文训练有潜力且数据透明，可免费用于研发并在 Hugging Face Hub 上提供。
关键信息：

语料库规模：4.75 亿份文档，1733 种语言，3 万亿 tokens，3.65TB 大小。
处理技术：文本提取（Docling）和 GPU 驱动 OCR（RolmOCR），去重、语言识别和 PII 匿名化。
语言分布：英语占比最大超 1.1 万亿 tokens，多种小语言也有涉及。
评估方式：跟踪各种基准的正确选择概率，而非单一分数。
许可证：Open Data Commons Attribution 许可证，可免费使用。
重要细节：
大多数大型语言模型数据集依赖 HTML 源，PDF 有独特优势但提取困难。
训练 1.67B 参数模型并展示其性能。
社区对评估提出疑问及 Hugging Face 工程师的回应。
数据集可通过多种方式在 Hugging Face Hub 上获取。

阅读 408