思考的错觉：通过问题复杂性的视角理解推理模型的优势和局限性

发布于 2025-08-03

主要观点：新一代前沿语言模型引入大推理模型（LRMs），虽在推理基准上性能提升，但对其基本能力、缩放特性和局限性了解不足，当前评估主要集中于既定基准且易受数据污染，本工作借助可控谜题环境系统研究这些差距，可分析最终答案和内部推理轨迹以了解“思考”方式，实验表明前沿 LRMs 在一定复杂度后会完全准确率崩溃且有反直觉缩放限制，通过与标准 LLM 比较确定三种性能状态，还发现 LRMs 在精确计算方面有局限性及对推理轨迹的深入研究。
关键信息：

引入 LRMs 及当前评估不足。
借助可控谜题环境研究。
前沿 LRMs 的性能变化及限制。
与标准 LLM 的比较及性能状态。
LRMs 在精确计算和推理轨迹方面的特点。
重要细节：
相关阅读包括通过强化学习引导推理的训练范式及 GSM8K 基准评估数学推理能力。
明确指出*为同等贡献，†为在苹果公司实习期间完成的工作。

阅读 61