论文

《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》

更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

随着更大规模的模型需要在数万亿的标记上进行预训练,目前尚不清楚 “高质量” 语料库(如社交媒体对话、书籍或技术论文)的整理工作在可扩展性方面表现如何,也不确定我们是否很快就会耗尽独特的高质量数据。

Falcon表明,仅经过适当筛选和去重的网络数据就能训练出强大的模型;甚至在性能上显著超越了那些基于The Pile进行训练的最先进模型。从REFINEDWEB数据集中提取的6000亿个标记,以及在该数据集上训练的13亿/75亿参数的语言模型均已公开发布。

宏观数据优化与RefinedWeb

MDR(宏观数据优化,MacroData Refinement)是一种用于大规模对CommonCrawl中的网络数据进行筛选和去重的流程,用于生成RefinedWeb。

设计原则

  • 规模优先:MDR旨在生成用于训练400 - 2000亿参数模型的数据集,因此需要数万亿的标记。
  • 严格去重:精确去重和模糊去重相结合,并采用严格的设置,去重率远高于其他报道。
  • 中立筛选:为避免给模型引入更多不良偏差,除了语言识别外,避免使用基于机器学习的筛选方法。仅使用简单规则、启发式方法以及针对成人内容的URL筛选。
    宏观数据优化的后续阶段剔除了CommonCrawl中近90% 的原始文档。

文档预处理

  • URL筛选:首先基于URL进行筛选,目标是欺诈性网站和 / 或成人网站。筛选基于两条规则:(1)包含460万个域名的聚合阻止列表;(2)URL得分,该得分基于从精心策划并根据严重程度加权的列表中提取的词汇的存在情况。
  • 文本提取:使用trafilatura提取页面的主要内容,忽略菜单、页眉、页脚和广告等。通过正则表达式进行额外的格式处理,将换行符限制为连续两个,并删除所有URL。
  • 语言识别:在文档级别使用CCNet的fastText语言分类器,当顶级语言得分低于0.65时,该文档将被删除,因为这通常意味着页面没有任何自然文本。

    筛选

  • 文档级筛选:相当一部分网页是机器生成的垃圾内容,主要由关键词列表、样板文本或特殊字符序列组成。这类文档不适合用于语言建模,为了筛选掉它们,我们采用了质量筛选启发式方法。这些方法主要是根据整体长度、符号与单词的比例以及其他标准来去除异常值,以确保文档是实际的自然语言。
  • 行级校正:设计了一种行校正过滤器,用于处理不良内容(例如社交媒体的点赞计数“3 likes”、导航按钮等)。如果这些校正操作删除了文档内容的5% 以上,则整个文档将被删除。

    去重

  • 模糊去重:通过对每个文档应用MinHash来删除相似文档,计算文档的草图,并测量其与其他文档的近似相似度,最终删除重叠度高的文档对。MinHash可以有效地识别模板化文档。
  • 精确去重:精确子串匹配在序列级别而非文档级别进行操作,通过使用后缀数组查找逐个标记完全匹配的字符串。任何超过50个连续标记的匹配都会被删除。
  • URL去重:CommonCrawl转储的数据存在大量重叠,即使内容没有变化,URL也会在不同转储中重复出现。因此,需要维护每个保留部分的URL列表,并从后续处理的部分中删除这些URL。

    实验

评估基于流行的Eleuther AI评估框架进行,该框架允许在零样本设置下对广泛的任务进行评估。

为了评估在RefinedWeb上训练的模型并与最先进的模型进行比较,我们在18个任务上构建了四个聚合指标,用于衡量零样本性能。

  • small:为内部消融实验构建,基于在小规模下性能稳定的任务。
  • core:基于公共模型套件中常见的报告任务。
  • main:基于GPT - 3和PaLM论文中的任务。
  • ext:基于BigScience架构和扩展小组使用的任务。

对于所有报告的结果,† 用于表示在任意评估设置中获得的结果,∗ 用于表示使用EAI评估框架获得的结果,我们所有的模型评估也都采用该框架。

基于与GPT - 3类似的配置和超参数,训练了具有10亿、30亿和70亿参数的仅自回归解码器模型,主要区别在于使用了ALiBi和FlashAttention。

研究结果

Curation不是零炮泛化的灵丹妙药:在REFINEDWEB上训练的小规模模型优于在Web数据(C4、Oscar AR)和精选语料库(The Pile)上训练的模型

  • 仅网络数据能否超越精心整理的语料库? 挑战了关于数据质量和大语言模型的现有观点,仅在经过充分筛选和去重的网络数据上训练的模型,其性能可以与在精心整理的数据上训练的模型相媲美。
  • 数据整理并非零样本泛化的万能药:在REFINEDWEB上训练的小规模模型,其性能优于在网络数据(C4、OSCAR)和精心整理的语料库(The Pile)上训练的模型。
  • small - agg聚合指标上零样本的平均准确率:所有模型均采用相同的架构和预训练超参数进行训练。OSCAR - 22.01的表现明显逊于其他数据集,这可能是因为去重只是可选操作。C4是一个强大的基线,OSCAR - 21.09略落后于它。RefinedWeb的表现优于网络数据集和最受欢迎的精心整理数据集The Pile。筛选和去重都对提高零样本性能有显著贡献。仅在REFINEDWEB上训练的模型优于在精心整理的语料库上训练的模型。
  • main - agg任务聚合指标上的零样本性能:在相同的计算预算下,Falcon模型显著优于在The Pile上训练的公开可用模型,并且在我们的评估设置中进行测试时,其性能与GPT - 3模型相当。仅在REFINEDWEB上训练的模型优于在精心整理的语料库上训练的模型。
  • core - agg(左)和ext - agg(右)任务聚合指标上的零样本平均性能:现有的开源模型无法与原始GPT - 3系列的性能相匹配(左);然而,在RefinedWeb上训练的模型显著优于在The Pile上训练的模型(包括我们的直接对比模型,右),这排除了我们的预训练设置是性能提升的主要原因。实际上,基于RefinedWeb训练的模型甚至达到了GPT - 3模型的性能。
  • 其他语料库能从MDR中受益吗? 虽然筛选启发式方法可能需要根据数据源进行调整,但严格的去重操作始终能提高各个数据集的零样本性能。尽管筛选带来的改进在不同数据集上并不系统,但去重操作普遍能带来稳定的性能提升。在我们的small - agg聚合指标上的零样本平均准确率;[+x.x]表示与基线相比的绝对增益,去除率是相对于基线报告的。由于我们流程的限制,无法对RefinedWeb单独应用去重阶段。

尽管过滤的改进并不是跨数据集的系统性改进,但消重带来了全面的稳定性能提升。

局限性

对RefinedWeb的毒性进行了基本分析。根据Perspective API提供的毒性定义,RW的毒性与The Pile大致相同。RefinedWeb中的有毒内容分布与The Pile相似,由Perspective API评估的低于给定毒性分数的文档累积比例可体现这一点。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝