DeepSeek-R1 需要多少数据来推理?比你想象的要少

Ye, 2025, LIMO: Less is More for Reasoning, 论文, 代码
Li, 2025, LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! 论文, 代码

📖阅读时长:19分钟

🕙发布时间:2025-02-17

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

大型推理模型(LRM)通过额外训练,借助带有反思、回溯和自我验证的长思维链(Long CoTs),来攻克具有挑战性的推理任务。这些模型在推理基准测试中展现出卓越的能力,但也伴随着更高的计算成本。事实上,这催生了“测试时计算”这一新概念,旨在提升模型性能。换句话说,关键不在于模型规模的大小,而在于模型针对给定问题的“思考”深度。

此外,获取这些长思维链的过程成本高昂,需要收集成千上万经过人工标注的文本。即便如今我们尝试利用其他模型来生成这些思维链,成本依旧居高不下。对此,我们不禁提出两个饶有趣味的问题:所有这些长思维链对于提升性能来说都是必需的吗?究竟是什么造就了这样的性能表现呢?

我们可以用少得多的思维链(CoT)取得相同的效果。比如,在其中一篇论文里,他们仅使用了17000个示例(而此前的研究中,使用数量往往超过100000个):

通过仅用DeepSeek R1生成的17000个样本进行全监督微调(SFT),Qwen2.5 - 32B - Instruct模型在众多数学和编码任务上,实现了与OpenAI o1 - preview相媲美的性能。

论文作者利用DeepSeek - R1和QwQ - 32B - Preview自动生成这些示例,以此得到长思维链。他们从数学数据集中挑选难题,或者选择那些需要推理的问题。随后,通过监督微调,在这个数据集上对Qwen2.5 - 32B - Instruct模型展开训练。

结果显示,即便仅使用少量示例,也能提升模型在所有基准测试中的表现。而且,并非一定要对模型的所有参数进行微调,像LoRA(只对一小部分参数进行更新)这样的高效技术同样可行。这意味着,模型在微调过程中学习的是模式,主要是学会如何更好地构建自身的回应,而非单纯学习新知识。

另一篇论文也证实了这些研究结果,该论文指出,仅需少量示例就能达到闭源模型的性能。

如果少量示例就已足够,那么在挑选这些示例时,哪些因素至关重要呢?仅仅依靠思维链就够了吗?是否还有其他要素需要纳入考量呢?

根据这篇文章的分析,关键在于这些示例的结构。作者着重探究了两个主要元素:

  • 推理步骤中的局部内容:如果答案正确,要关注使用了哪些词语,以及是否包含数字。
  • 全局推理结构:包括反思的运用、自我验证的方式、推理步骤的数量,以及推理的具体过程。

为此,他们通过修改词语或调整结构(插入、删除和打乱推理步骤)来对示例进行干扰。实验结果呈现出几个值得关注的要点:

  • 正确答案并非必需:作者使用了一些最终思维链答案错误的示例,发现模型性能仅有轻微下降。
  • 更改中间步骤数字影响不大:在另一项实验中,他们把中间步骤里的数字替换成随机数(这使得示例中出现明显错误),但这对模型性能的影响同样较小。
  • 推理词重要性不高:从思维链中删除推理词(例如大型推理模型在生成回复时常用的“wait”“let me think again”“but”等),也不会显著降低模型性能,这表明这些关键词对于推理而言并非不可或缺。

作者运用Llama - 3.3 - 70B - Instruct,将推理过程拆分成不同的推理步骤,以此确定各个组成部分(回溯、自我验证、反思)。之后,他们对各类示例进行不同的修改(插入、删除和打乱顺序)。这些修改会严重破坏模型的性能,就好像模型从未经过微调一样。

在另一项研究中,研究人员对示例进行分析,并将它们划分为五个质量等级(L1 - L5,L5为最高等级)。举例来说,L5级别的解决方案条理清晰,步骤解释详尽,且有全面的自我验证;而L1级别的解决方案仅列出基本步骤,缺乏详细阐述。结果表明,L5级质量的推理链能让模型发挥出最佳性能,并且模型性能与用于微调的思维链质量呈正相关。

此外,用高质量示例训练的模型,会通过为推理分配更多“标记”,生成更长的回复,并且包含更多自我反思的过渡词(比如“wait”“perhaps”“therefore”等)。

而且,在作者看来,不仅解决方案(推理链)的质量至关重要,问题本身的质量同样不可忽视:

我们推测,更具挑战性的问题能够促使形成更复杂的推理链、更多样化的思维过程,以及更高效的知识整合,从而让大语言模型更好地利用预训练知识,实现高质量的推理。——数据来源

所以,他们把问题分成三个难度逐渐递增的集合(简单、复杂、高级)。结果显示,更复杂的问题(连同其解决方案)能带来更优的结果(更高的推理性能)。

最后,这两项研究都表明,模型的选择也不容忽视。并非所有模型都能从后续微调中同等受益。

在本文中,我们展示了可以使用几千个示例和低秩适配器轻松微调这种功能。我们进一步表明,学习过程的关键是样本的逻辑结构,而不是单个推理步骤的内容。——数据来源

这两篇文章共同表明,实现理想的模型性能并非一定需要大量示例,少量精心挑选的示例往往就已足够。第一篇论文强调了示例结构的重要性,而第二篇则聚焦于问题和解决方案的质量影响。乍看之下,这两项研究成果似乎相互矛盾,但实际上,高质量的思维链本身就具备清晰且精确的结构,这与第一项研究的结果其实是相契合的。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望5 粉丝