突破大模型推理瓶颈：CoD如何降本增效？

🕙发布时间：2025-03-02

更多LLM架构文章：LLM架构专栏
近日热文：
1. 全网最全的神经网络数学原理（代码和公式）直观解释
 2. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路
 3. 2W8000字深度剖析25种RAG变体：全网最全~没有之一
 4. 3W6000字了解大模型LLM：部署、优化与框架
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

论文链接：Chain of Draft: Thinking Faster by Writing Less

问题

本文致力于解决大语言模型（LLMs）在执行复杂推理任务时，所面临的高计算成本和延迟问题。具体而言，研究针对的是思维链（CoT）提示法的效率缺陷。在使用 CoT 时，大语言模型会生成冗长、逐步的推理过程来解决问题。尽管这种方式行之有效，但在推理阶段，它需要消耗大量计算资源，不仅会产生冗长的输出，还会增加延迟。这与人类解决问题的方式形成鲜明对比，人类往往通过简洁的草稿或速记就能抓住关键要点，无需繁琐的阐述。本文希望通过为大语言模型引入更高效的推理范式，来填补这一差距。

方法论

草稿链（Chain of Draft，CoD）是一种面向大语言模型的全新推理策略，旨在通过生成简洁、紧凑的中间输出，模拟人类的认知过程。CoD 方法的核心要点如下：

简洁的推理步骤：CoD 鼓励大语言模型将每个推理步骤控制在五个单词以内，以此提升简洁性和效率。
聚焦关键信息：该方法着重提取对解决问题有推进作用的关键信息，就像人类在处理复杂任务时，会记录下要点一样。

抽象表示：CoD 将推理过程凝练为最精简的抽象表达，常常把复杂问题提炼成简洁的公式或核心概念。例如，在解决数学问题时，可能将复杂的文字描述转化为简单的数学方程式。
摒弃无关细节：通过去除对解决问题无关紧要的上下文细节，CoD 在大幅减少 token 数量的同时，还能保证解决方案的透明度和正确性。

循序渐进的方式：尽管强调简洁，但 CoD 依旧倡导逐步思考，确保在处理复杂推理任务时逻辑连贯。
手动示例构建：研究人员手动构建了用于小样本学习的草稿链示例，向大语言模型展示理想的简洁推理风格。
灵活的准则：虽然每个步骤五个单词的限制是一般性准则，但并非强制执行，在实际应用中有一定的灵活性。

结果

草稿链（CoD）在保持或超越思维链（CoT）提示法准确性的同时，显著提升了效率：

减少 token 使用量：与 CoT 相比，CoD 的 token 使用量仅为其 7.6%，在保留关键推理内容的同时，极大地降低了表述的冗长性。
准确性表现：在各类推理任务中，CoD 的准确性与 CoT 相当，甚至更优。

降低成本和延迟：token 使用量的大幅下降，意味着更低的计算成本和延迟，使大语言模型在实际应用中更具可行性。
广泛的适用性：CoD 在多种推理任务中都展现出良好的效果，包括算术运算、常识推理以及符号推理。

这些结果表明，CoD 为大语言模型推理提供了更高效的方法，有望在计算效率至关重要的生产环境中，彻底改变大语言模型的应用模式。

总结

CoD 是一种创新方法，它关注到了大语言模型中一个关键却常被忽视的问题——推理能力与延迟之间的平衡。该方法致力于大幅减少大语言模型输出的冗余内容，在降低延迟和计算成本的同时，与思维链（CoT）这类较为繁琐的方法相比，能够保持甚至提升准确性。通过促使大语言模型生成简洁且关键的推理步骤，CoD 显著缩短了复杂推理任务所需的延迟。这一创新对于那些既要求低延迟，又需要高质量回复的实时应用来说，尤为重要。CoD 在准确性上与标准 CoT 提示策略相当，甚至更胜一筹，在那些对快速、准确回复有严格要求的实际场景中，它为提升大语言模型的效率和实用性提供了极具前景的解决方案。

本文由mdnice多平台发布

突破大模型推理瓶颈：CoD如何降本增效？

问题

方法论

结果

总结

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？