大语言模型是否具备非语言推理能力？

大语言模型在逻辑推理中的挑战与改进

大语言模型（LLMs）通过其Transformer架构在预测下一个词（即语言标记）方面取得了巨大成功。然而，在处理需要抽象逻辑的复杂推理任务时，完全依赖“语言空间”可能会导致一些问题，即使对于现代的“推理”模型也是如此。

问题背景

现代推理模型（如ChatGPT的o1模型）通常通过生成“思维链”来工作。这些模型中的每一步逻辑过程都表示为自然语言词标记的序列，这些标记被反馈回模型。Meta的FAIR团队和加州大学圣地亚哥分校的研究人员在一篇新论文中指出，这种对自然语言和“词标记”的依赖是这些推理模型的“基本约束”。这是因为完成推理任务通常需要在特定的关键标记上进行复杂规划，以从多个选项中找到正确的逻辑路径。

解决方案：潜在空间推理

研究人员提出了一种方法，即“在连续潜在空间中训练大语言模型进行推理”。潜在空间由模型在生成可读自然语言版本之前的“隐藏”中间标记权重组成。在他们的COCONUT模型（连续思维链）中，这些隐藏状态被编码为“潜在思维”，在训练和处理查询时替换逻辑序列中的单个书面步骤。这种方法避免了每一步都需要转换为自然语言，从而“将推理从语言空间中解放出来”，形成一个优化的推理路径，称为“连续思维”。

潜在空间推理的优势

在潜在空间中进行逻辑处理不仅提高了模型的效率，更重要的是，这种模型可以“同时编码多个潜在的下一步”。与传统的“贪婪”过程（即逐一完全探索每个逻辑选项）不同，保持在潜在空间允许一种即时回溯，类似于在图中进行广度优先搜索。这种多路径推理虽然在相对简单的数学推理（GSM8K）或一般推理（ProntoQA）测试中并未显著提高COCONUT的准确性，但在涉及复杂和曲折逻辑条件的随机生成的ProntoQA风格查询中表现较好。

研究的意义与未来方向

这项研究加入了对大语言模型在底层神经网络层面工作原理的理解和利用的不断增长的研究领域。虽然这类研究尚未带来重大突破，但研究人员得出结论，从开始就预训练这些“连续思维”模型可以“使模型在更广泛的推理场景中更有效地泛化”。