COCONUT：通过潜在空间彻底改变大型语言模型中的推理

📖阅读时长：19分钟

🕙发布时间：2025-02-11

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

打破语言推理的枷锁

大型语言模型（LLM）改变了人工智能的格局，在理解和生成类人文本方面展现出卓越的能力。它们在解决从逻辑谜题到创意写作等各类问题上取得的成功，很大程度上归功于一种名为思维链（CoT）推理的技术。通过逐步解决问题，思维链将人工智能决策的复杂程度提升到了一个新高度。

但要是语言本身阻碍了这些模型的发展呢？思维链依赖于将每个推理步骤表示为单词标记，这个过程既低效又有局限性。大型语言模型被迫过早地确定单一推理路径，这使得探索其他方案或回溯推理步骤变得困难。更糟糕的是，它们的大部分计算能力都浪费在生成对实际问题解决作用不大的单词上。

现在，来了解一下COCONUT（持续思考链），这是来自Meta和加州大学圣地亚哥分校研究人员提出的一种大胆的新范式。COCONUT摒弃了语言限制，允许大型语言模型在连续的潜在空间中进行推理。该模型不再用语言表述每个步骤，而是将推理状态表示为抽象向量，这些数学表示能无缝衔接至下一步推理。这种革命性的方法实现了更高效的计算、更优的规划以及更准确的结果。

在本文中，我们将深入探究COCONUT背后的科学原理、它具有开创性的优势，以及它为何能够超越传统的思维链推理。读完本文，你就会明白为什么在潜在空间中进行推理可能是释放人工智能全部潜力的关键所在。如果对细节感兴趣，https://arxiv.org/abs/2412.06769 找到原始研究论文。

当文字阻碍思考时

想象一下，你正在尝试解开一个复杂的谜题，却被要求在解题过程中大声描述每一个步骤。虽然这可能有助于你保持思路清晰，但它也会拖慢你的速度，迫使你过早地确定一种解题思路，让你更难去探索其他可能的解决方案。从本质上讲，这就是传统的思维链（CoT）推理在大型语言模型中的运作方式。

思维链促使模型将推理步骤生成为单词序列，使其受自然语言规则的束缚。尽管这种方法能有效地将问题分解为易于处理的步骤，但也存在显著的缺陷：

计算资源浪费：在思维链中，每个推理标记，无论对解决问题是否关键，都需要消耗相同的计算资源。这种平均分配资源的方式可能会导致效率低下，尤其是当许多标记只是为了保证语言流畅性而非逻辑推理时。
缺乏灵活性：一旦某个推理步骤用语言表达出来，就很难再进行修改或探索其他推理路径。这种无法回溯或提前规划的特性，限制了思维链处理更复杂、更模糊任务的能力。
语言的限制：对于人工智能模型来说，用自然语言进行推理并不总是直观或高效的。神经影像学研究甚至表明，人类的推理过程通常发生在抽象的、非语言的思维活动中，与大脑的语言网络相互独立。

这些限制凸显了一个根本性的问题：为什么大型语言模型一定要依赖语言进行推理呢？如果它们能够以更接近人类思维的方式进行推理，比如并行探索多种可能性、根据需要回溯、只关注关键信息，那会怎么样呢？

这正是COCONUT（持续思考链）的用武之地，它为潜在空间中的推理带来了突破性的变革。通过将模型从单词标记的束缚中解放出来，COCONUT实现了更高效、更灵活的问题解决方式。但它究竟是如何工作的呢？让我们深入了解一下这种范式的运作机制。

超越言语：COCONUT的潜在飞跃

从本质上讲，COCONUT（持续思考链）通过突破语言的限制，彻底革新了大型语言模型的推理方式。它不再要求模型将推理步骤生成为单词标记，而是支持在连续的潜在空间中进行推理，这是一种数学化、抽象化且不受语言结构约束的表示形式。

它的工作原理如下：

连续思考：在COCONUT中，推理状态被表示为潜在向量，这是对信息进行的高维数学抽象。这些“连续的想法”不会被转化为文字，而是直接作为输入传递到下一步推理中。
打破语言循环：传统的推理方法，如思维链（CoT），在每个步骤都依赖生成单词标记，然后将其作为输入反馈回模型。相比之下，COCONUT完全绕过了语言标记层，从而消除了这种依赖。这在潜在空间中创建了一个纯粹的推理状态反馈循环。
并行探索：COCONUT最具开创性的特性之一，就是它能够同时编码多个潜在的推理路径。该模型不会过早地局限于单一解决方案，而是像广度优先搜索（BFS）算法一样，探索多种可能性。这种方式使模型能够逐步剔除错误的路径，同时优化有潜力的路径。
效率和可微性：由于连续思维是紧凑且完全可微的，它们支持基于梯度的优化，避免了生成语言标记所需的计算开销。这减少了推理过程中所需的“思维标记”数量，从而能够更快、更节省资源地解决问题。

简而言之，COCONUT将推理过程从一个线性的、受语言限制的过程，转变为一个动态的、多维的、抽象的过程。但在实际应用中，这意味着什么呢？为了理解COCONUT的真正实力，让我们来看看为什么在潜在空间中进行推理更具优势。

潜在推理的强大力量

想象一下，你在解决一个问题时，每走一步就会锁定在一条路径上，即使可能存在更好的选择。大型语言模型中传统的思维链（CoT）推理就存在这种僵化的问题。每个推理步骤都用语言表达，这迫使模型过早做出决策，限制了其灵活性。但如果推理能够像人类思维一样动态、灵活且高效呢？

这正是COCONUT（持续思考链）所带来的前景。通过在潜在空间中进行操作，COCONUT引入了一种更灵活、更具规划性和高效性的新范式。以下通过一些通俗易懂的例子，来解释它为何优于思维链：

探索多种路径的灵活性
- 情景：你计划从A市到D市进行一次公路旅行，有两条可行的路线：
  - 路线1：A→B→D（速度更快，但需要支付过路费）。
  - 路线2：A→C→D（速度较慢，但风景优美且免费）。
- 思维链（CoT）：就像一个死板的GPS，思维链会立即选择路线1。即使出现了新的信息（例如过路费成本或风景优势），它也无法重新考虑路线2。一旦确定了路线，思维链就无法探索其他选择。
- COCONUT：可以把COCONUT想象成一个决策助手，它会同时考虑两条路线。在做出选择之前，它会同时评估路线1和路线2，收集所有相关信息，如过路费、交通状况、风景价值等。这种灵活性确保了能够做出更明智、更全面的决策。
- 论文观点：“连续思维可以编码多个可供选择的下一个推理步骤，使模型能够执行广度优先搜索（BFS）来解决问题，而不是像思维链那样过早地确定单一的确定性路径。”
增强的规划和回溯能力
- 情景：你正在烤蛋糕，做到一半时发现没有鸡蛋了。为了挽救这个食谱，你需要回顾前面的步骤，也许可以用苹果酱或酸奶代替鸡蛋。
- 思维链（CoT）：就像一个不知变通的厨师，即使知道面糊注定失败，思维链仍会继续按照原步骤操作。或者它会完全重新开始，这既浪费时间又浪费食材。
- COCONUT：COCONUT就像一个聪明的厨师，它会回顾食谱并探索替代方案。它会动态地重新调整，选择替代品或调整配料比例来解决缺少食材的问题。这种回顾之前决策的能力节省了精力，并确保了更好的结果。
- 论文观点：“潜在推理避免了过早做出硬性选择，使模型能够在后续步骤中逐步排除错误选项，并在推理结束时获得更高的准确性。”
降低计算开销
- 情景：你正在写一篇文章，每个段落都需要进行头脑风暴、起草和编辑。你有两种方式：
  - 依次撰写并润色每个段落（思维链方式）。
  - 大致起草所有段落，一起完善，然后一次性完成文章定稿（COCONUT方式）。
- 思维链（CoT）：每次仔细撰写并完善一个段落。如果需要对论文主题进行修改，你就不得不重写前面的部分，这是一个缓慢且低效的过程。
- COCONUT：先为所有段落草草记下大致想法（潜在状态），整体评估这些想法，然后一次性完善文章。这减少了重复工作，并确保文章在逻辑上连贯统一。
- 论文观点：“潜在思维是紧凑且完全可微的……这减少了推理过程中思维标记的数量，从而能够更快、更节省资源地解决问题。”

COCONUT为何出色

在上述每个情景中，COCONUT通过在潜在空间中进行推理，都比思维链表现得更为出色：

灵活性：它保留多种选择，确保做出更明智的决策。
适应性：随着新信息的出现，它可以回顾并修改前面的步骤。
效率：它避免了不必要的工作，将资源集中在关键部分。

COCONUT不仅仅是在推理，它像人类一样进行动态且抽象的推理。但这如何转化为可衡量的改进呢？让我们来探究一下证明其优越性的实验结果。

实践检验：COCONUT的实际应用

为了评估COCONUT的有效性，研究人员在各种推理任务和基准数据集上对其进行了测试，并将其性能与传统的思维链（CoT）推理进行了比较。虽然结果并非完美，但这些实验突出了COCONUT在更灵活、高效地处理复杂推理问题方面的潜力。

基准任务
COCONUT在三个数据集上进行了评估，每个数据集旨在测试特定的推理能力：
- GSM8k：这是一组小学数学问题集，需要逐步进行算术推理。
- ProntoQA：涉及树状结构数据的逻辑推理任务，要得出结论需要仔细的多步规划。
- ProsQA：这是一个新设计的数据集，专注于在有向无环图（DAG）中进行高级规划和搜索。它要求模型在解决问题之前评估多种可能的路径。

这些数据集反映了从简单计算到复杂逻辑推理等现实世界中的推理挑战。

实验设置
- 传统思维链（CoT）：以自然语言生成推理链，在每个阶段都沿着单一路径逐步解决问题。
- COCONUT：利用潜在推理，编码多种可能性，并在有足够信息做出决策之前保持灵活性。

两种方法都从以下两个方面进行评估：

- **准确性**：最终答案的正确程度。
- **效率**：得出解决方案所需的推理标记数量。

结果
实验为COCONUT带来了令人期待的结果：
- GSM8k（数学推理）：COCONUT在所需推理标记更少的情况下，达到了与思维链相当的准确率，展示了其在较简单任务中的高效性。
- ProntoQA（逻辑推理）：在需要仔细规划的任务中，COCONUT的表现优于思维链，这得益于它在推理过程中能够保留多种替代解决方案的能力。
- ProsQA（高级规划）：在这个具有挑战性的数据集上，COCONUT的潜在推理范式表现出色，在涉及多条路径和复杂规划的任务中胜过思维链。
效率提升

COCONUT的另一个显著优势是它的效率：
通过在潜在空间中进行推理，与思维链相比，它所需的“思维标记”更少，尤其是在像ProsQA这样的复杂任务中。这种标记数量的减少转化为更快的推理速度和更低的计算开销，使得COCONUT成为解决具有挑战性问题的一种高效资源替代方案。

一个充满前景的范式

这些结果表明，COCONUT为传统推理方法提供了一种很有前景的替代方案。通过在潜在空间中进行推理，它实现了：

在规划密集型任务中提高准确性。
在探索多种路径时具有更大的灵活性。
减少计算工作量，使其在资源密集型场景中更具实用性。

尽管COCONUT仍有改进的空间，但这些发现表明，潜在推理在推进大型语言模型的发展中可能发挥重要作用。接下来，让我们深入探究COCONUT是如何通过其独特的推理机制实现这些成果的。

深入了解COCONUT的思维

COCONUT是如何实现推理的灵活性、规划能力和效率的呢？关键在于它在潜在空间中运作的独特能力，这使它能够同时探索多种推理路径。本节将通过ProsQA数据集中的一个具体案例研究，详细剖析其运作机制。

案例研究：避免幻觉并选择正确路径
问题：“Alex是gorpus还是bompus？”
推理过程涉及梳理逻辑关系，例如：
- 每个grimpus都是yimpus。
- 每个rorpus都是bompus。

为了解决这个问题，模型必须逐步追踪这些关系，在“grimpus”“rorpus”和“bompus”等实体之间进行推导，以得出正确答案。

思维链（CoT）的失败
在思维链推理中，模型过早地“幻想”出了一条不存在的路径：“每个yumpus都是rempus。”这个错误的假设扰乱了推理过程，导致思维链得出错误的答案：Alex是gorpus。
COCONUT的潜在推理
另一方面，COCONUT通过在潜在空间中进行推理避免了这个问题。以下是随着潜在思维步骤的增加，它的推理过程：
- COCONUT（k = 1）：它部分探索了正确的路径，但最终指向了错误的目标，得出Alex是brimpus的结论。
- COCONUT（k = 2）：通过将多种可能的路径作为潜在思维保留，COCONUT成功梳理了各种关系：
  - Alex → grimpus → rorpus → bompus。
  - 最终答案：Alex是bompus。

这展示了COCONUT的以下能力：

- **避免幻觉**：它不会像思维链那样生成错误的关系。
- **探索多种路径**：潜在思维使COCONUT能够延迟做出决策，逐步排除错误选项。
- **动态优化推理**：增加一个步骤（k = 2）使模型能够识别出正确的路径。

重要意义
这个案例研究凸显了COCONUT在解决需要仔细梳理多条路径的推理任务时的优势：
- 思维链（CoT）：容易受到幻觉和过早决策的影响。
- COCONUT：保持灵活性，根据需要回溯，并最终得出正确答案。

通过利用潜在推理，COCONUT为解决像ProsQA数据集中那样复杂的、规划密集型问题提供了一种更可靠的方法。

潜在推理的未来之路

虽然COCONUT展示出了强大的推理能力，但它也揭示了一些需要进一步研究的领域。潜在推理具有巨大的潜力，但在可扩展性、泛化性和可解释性方面仍然存在挑战。以下是关键的研究方向：

可扩展性和泛化性
COCONUT在GSM8k、ProntoQA和ProsQA等基准数据集上成功提高了推理准确性。然而，将其扩展到更复杂的任务时面临挑战：
- 可扩展性：潜在推理在训练过程中需要进行多次前向传递，这可能会导致更高的计算成本，尤其是在长序列或多步推理任务中。
- 泛化性：尽管COCONUT在逻辑推理和数学等结构化问题上表现出色，但它在泛化到开放式、结构较松散的任务上的能力仍有待研究。
平衡潜在推理和语言推理
虽然潜在推理在中间步骤中无需语言标记，但这也降低了对人类的可解释性：
- 当前局限性：潜在状态紧凑且高效，但难以轻易转化为有意义的中间解释。
- 权衡与平衡：整合潜在推理和语言推理，例如在潜在空间中解决问题的同时用语言生成推理框架，可能会在效率和可解释性之间找到平衡。
训练效率
训练COCONUT依赖于一个多阶段的课程体系，其中潜在思维逐渐取代明确的推理步骤。虽然这种方法有效，但也带来了挑战：
- 训练复杂性：训练的顺序性，需要多次前向传递，这可能会减慢优化速度并限制并行性。
- 计算开销：与标准的思维链相比，潜在推理在训练和推理过程中需要额外的步骤。
基准测试之外的应用
COCONUT在结构化推理基准测试中的成功，凸显了它在更广泛领域的应用潜力：
- 自动定理证明：需要大量搜索、回溯和验证的问题，可能会从潜在推理中受益。
- 决策制定和规划：机器人、物流和游戏策略等领域依赖于同时探索多种路径，这与COCONUT类似广度优先搜索的推理方式非常契合。
- 复杂问题解答：涉及模糊查询、图结构数据或长文本上下文的任务，可以利用COCONUT延迟决策和避免幻觉的能力。

本文的参考文献如下：

Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, and Yuandong Tian. Training Large Language Models to Reason in a Continuous Latent Space. arXiv:2412.06769, 2024
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903, 2022
Yuntian Deng, Kiran Prasad, Roland Fernandez, Paul Smolensky, Vishrav Chaudhary, and Stuart Shieber. Implicit Chain of Thought Reasoning via Knowledge Distillation. arXiv:2311.01460, 2023
Yuntian Deng, Yejin Choi, and Stuart Shieber. From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step-by-Step. arXiv:2405.14838, 2024
Abulhair Saparov and He He. Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought. arXiv:2210.01240, 2022
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, and Reiichiro Nakano. Training Verifiers to Solve Math Word Problems. arXiv:2110.14168, 2021
Yuval Shalev, Amir Feder, and Ariel Goldstein. Distributional Reasoning in LLMs: Parallel Reasoning Processes in Multi-Hop Reasoning. arXiv:2406.13858, 2024
Jacob Pfau, William Merrill, and Samuel R. Bowman. Let’s Think Dot by Dot: Hidden Computation in Transformer Language Models. arXiv:2404.15758, 2024
Martin M. Monti, Lawrence M. Parsons, and Daniel N. Osherson. Thought Beyond Language: Neural Dissociation of Algebra and Natural Language. Psychological Science, 23(8): 914–922, 2012
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language Models Are Unsupervised Multitask Learners. OpenAI Blog, 2019
Yann LeCun. A Path Towards Autonomous Machine Intelligence. Open Review, 2022
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理
 2. 微调 DeepSeek LLM：使用监督微调（SFT）与 Hugging Face 数据
 3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1：了解GRPO和多阶段训练
 5. 深度探索：DeepSeek-R1 如何从零开始训练
 6. DeepSeek 发布 Janus Pro 7B 多模态模型，免费又强大！

本文由mdnice多平台发布

COCONUT：通过潜在空间彻底改变大型语言模型中的推理