🕙发布时间:2025-03-02

更多LLM架构文章:LLM架构专栏
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
4. 3W6000字了解大模型LLM:部署、优化与框架
知乎【柏企
公众号【柏企科技说】【柏企阅文

论文链接:Chain of Draft: Thinking Faster by Writing Less

问题

本文致力于解决大语言模型(LLMs)在执行复杂推理任务时,所面临的高计算成本和延迟问题。具体而言,研究针对的是思维链(CoT)提示法的效率缺陷。在使用 CoT 时,大语言模型会生成冗长、逐步的推理过程来解决问题。尽管这种方式行之有效,但在推理阶段,它需要消耗大量计算资源,不仅会产生冗长的输出,还会增加延迟。这与人类解决问题的方式形成鲜明对比,人类往往通过简洁的草稿或速记就能抓住关键要点,无需繁琐的阐述。本文希望通过为大语言模型引入更高效的推理范式,来填补这一差距。

方法论

草稿链(Chain of Draft,CoD)是一种面向大语言模型的全新推理策略,旨在通过生成简洁、紧凑的中间输出,模拟人类的认知过程。CoD 方法的核心要点如下:

  • 简洁的推理步骤:CoD 鼓励大语言模型将每个推理步骤控制在五个单词以内,以此提升简洁性和效率。
  • 聚焦关键信息:该方法着重提取对解决问题有推进作用的关键信息,就像人类在处理复杂任务时,会记录下要点一样。

  • 抽象表示:CoD 将推理过程凝练为最精简的抽象表达,常常把复杂问题提炼成简洁的公式或核心概念。例如,在解决数学问题时,可能将复杂的文字描述转化为简单的数学方程式。
  • 摒弃无关细节:通过去除对解决问题无关紧要的上下文细节,CoD 在大幅减少 token 数量的同时,还能保证解决方案的透明度和正确性。

  • 循序渐进的方式:尽管强调简洁,但 CoD 依旧倡导逐步思考,确保在处理复杂推理任务时逻辑连贯。
  • 手动示例构建:研究人员手动构建了用于小样本学习的草稿链示例,向大语言模型展示理想的简洁推理风格。
  • 灵活的准则:虽然每个步骤五个单词的限制是一般性准则,但并非强制执行,在实际应用中有一定的灵活性。

结果

草稿链(CoD)在保持或超越思维链(CoT)提示法准确性的同时,显著提升了效率:

  • 减少 token 使用量:与 CoT 相比,CoD 的 token 使用量仅为其 7.6%,在保留关键推理内容的同时,极大地降低了表述的冗长性。
  • 准确性表现:在各类推理任务中,CoD 的准确性与 CoT 相当,甚至更优。

  • 降低成本和延迟:token 使用量的大幅下降,意味着更低的计算成本和延迟,使大语言模型在实际应用中更具可行性。
  • 广泛的适用性:CoD 在多种推理任务中都展现出良好的效果,包括算术运算、常识推理以及符号推理。

这些结果表明,CoD 为大语言模型推理提供了更高效的方法,有望在计算效率至关重要的生产环境中,彻底改变大语言模型的应用模式。

总结

CoD 是一种创新方法,它关注到了大语言模型中一个关键却常被忽视的问题——推理能力与延迟之间的平衡。该方法致力于大幅减少大语言模型输出的冗余内容,在降低延迟和计算成本的同时,与思维链(CoT)这类较为繁琐的方法相比,能够保持甚至提升准确性。通过促使大语言模型生成简洁且关键的推理步骤,CoD 显著缩短了复杂推理任务所需的延迟。这一创新对于那些既要求低延迟,又需要高质量回复的实时应用来说,尤为重要。CoD 在准确性上与标准 CoT 提示策略相当,甚至更胜一筹,在那些对快速、准确回复有严格要求的实际场景中,它为提升大语言模型的效率和实用性提供了极具前景的解决方案。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝