Hugging Face 发布 FinePDFs:一个从 PDF 构建的 3 万亿标记数据集

主要观点:Hugging Face 推出了最大的全 PDF 公开语料库[FinePDFs],涵盖 1733 种语言 4.75 亿份文档约 3 万亿 tokens 及 3.65TB 大小,通过多种技术解决从 PDF 提取文本的挑战,涵盖多种语言,训练模型评估显示其性能接近 SmolLM - 3 Web 且结合后性能提升,引发社区对评估的疑问及回应,此数据集对推进长上下文训练有潜力且数据透明,可免费用于研发并在 Hugging Face Hub 上提供。
关键信息:

  • 语料库规模:4.75 亿份文档,1733 种语言,3 万亿 tokens,3.65TB 大小。
  • 处理技术:文本提取(Docling)和 GPU 驱动 OCR(RolmOCR),去重、语言识别和 PII 匿名化。
  • 语言分布:英语占比最大超 1.1 万亿 tokens,多种小语言也有涉及。
  • 评估方式:跟踪各种基准的正确选择概率,而非单一分数。
  • 许可证:Open Data Commons Attribution 许可证,可免费使用。
    重要细节:
  • 大多数大型语言模型数据集依赖 HTML 源,PDF 有独特优势但提取困难。
  • 训练 1.67B 参数模型并展示其性能。
  • 社区对评估提出疑问及 Hugging Face 工程师的回应。
  • 数据集可通过多种方式在 Hugging Face Hub 上获取。
阅读 153
0 条评论