大学研究人员发表关于大语言模型思维链推理的分析

普林斯顿大学与耶鲁大学研究团队发布关于链式思维推理的案例研究

普林斯顿大学和耶鲁大学的研究人员发表了一篇关于大语言模型（LLMs）中链式思维推理（Chain-of-Thought, CoT）的案例研究，揭示了LLMs在推理过程中同时存在记忆和真实推理的证据。研究还发现，即使提示中的示例错误，CoT仍能发挥作用。

研究背景与动机

该研究源于学术界对LLMs是否真正具备推理能力，还是仅基于启发式和记忆的持续争论。研究团队选择了一项简单任务——解码移位密码（shift ciphers）作为案例，发现LLMs在使用CoT提示时的表现依赖于记忆和团队所称的“噪声”推理，以及正确答案的整体概率。

主要发现

研究团队指出：

CoT的效果从根本上取决于生成能够增加正确答案概率的词语序列；只要满足这一条件，即使提示中的示例无效，CoT仍能成功。在LLMs是推理还是记忆的争论中，我们的结果支持了一个合理的中间立场：LLM行为同时表现出记忆和推理的特征，并反映了这些模型的概率起源。

实验设计与结果

研究团队选择解码移位密码作为任务，因为该任务在复杂性和训练数据中的使用频率之间具有“明显分离”。任务难度随移位值增大而增加，但最常用的是rot-13。如果LLMs仅依赖记忆，则在rot-13上表现更好；如果真正推理，则在rot-1和rot-25上表现最佳，在rot-13上表现最差。

实验结果显示，LLMs在rot-13上的表现优于其他移位值，表明记忆在其中起重要作用，但推理能力也部分存在。

数据集与模型测试

研究团队创建了一个包含7字母单词的数据集，这些单词被GPT-4标记为恰好2个token。他们还计算了每个单词在GPT-2中完成句子“The word is”的概率，以控制LLM输出该单词的概率。随后，他们生成了这些单词的移位版本，并在GPT-4、Claude 3和Llama-3.1-405B-Instruct上进行了实验。

数字解码实验

研究团队还进行了一项实验，要求模型使用算术解码数字序列。该任务与移位密码任务“同构”，但仅使用数字。结果显示，GPT-4在这项任务上表现“近乎完美”，表明其具备完成移位密码任务所需的核心推理能力。然而，由于GPT-4在移位密码任务中未能完美表现，团队得出结论：CoT并非纯粹的符号推理，但相比标准提示，CoT确实提高了性能。

研究团队的进一步讨论

研究团队成员、耶鲁大学教授R. Thomas McCoy在X上回应了用户关于不同CoT提示是否会产生不同结果的问题，表示：

是的，我认为还有很多可以探索的地方！[共同作者Akshara Prabhakar]进行了一些涉及在CoT中将字母转换为数字的实验，这通常提高了性能，但得到了定性相似的图表。这是一个相似的案例，但也可能存在其他不同的趋势。

实验代码与数据

该研究的实验代码和数据已在GitHub上公开。