主要观点:新一代前沿语言模型引入大推理模型(LRMs),虽在推理基准上性能提升,但对其基本能力、缩放特性和局限性了解不足,当前评估主要集中于既定基准且易受数据污染,本工作借助可控谜题环境系统研究这些差距,可分析最终答案和内部推理轨迹以了解“思考”方式,实验表明前沿 LRMs 在一定复杂度后会完全准确率崩溃且有反直觉缩放限制,通过与标准 LLM 比较确定三种性能状态,还发现 LRMs 在精确计算方面有局限性及对推理轨迹的深入研究。
关键信息:
- 引入 LRMs 及当前评估不足。
- 借助可控谜题环境研究。
- 前沿 LRMs 的性能变化及限制。
- 与标准 LLM 的比较及性能状态。
- LRMs 在精确计算和推理轨迹方面的特点。
重要细节: - 相关阅读包括通过强化学习引导推理的训练范式及 GSM8K 基准评估数学推理能力。
- 明确指出*为同等贡献,†为在苹果公司实习期间完成的工作。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。