主要观点:Hugging Face 推出了最大的全 PDF 公开语料库[FinePDFs],涵盖 1733 种语言 4.75 亿份文档约 3 万亿 tokens 及 3.65TB 大小,通过多种技术解决从 PDF 提取文本的挑战,涵盖多种语言,训练模型评估显示其性能接近 SmolLM - 3 Web 且结合后性能提升,引发社区对评估的疑问及回应,此数据集对推进长上下文训练有潜力且数据透明,可免费用于研发并在 Hugging Face Hub 上提供。
关键信息:
- 语料库规模:4.75 亿份文档,1733 种语言,3 万亿 tokens,3.65TB 大小。
- 处理技术:文本提取(Docling)和 GPU 驱动 OCR(RolmOCR),去重、语言识别和 PII 匿名化。
- 语言分布:英语占比最大超 1.1 万亿 tokens,多种小语言也有涉及。
- 评估方式:跟踪各种基准的正确选择概率,而非单一分数。
- 许可证:Open Data Commons Attribution 许可证,可免费使用。
重要细节: - 大多数大型语言模型数据集依赖 HTML 源,PDF 有独特优势但提取困难。
- 训练 1.67B 参数模型并展示其性能。
- 社区对评估提出疑问及 Hugging Face 工程师的回应。
- 数据集可通过多种方式在 Hugging Face Hub 上获取。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。