思考的错觉:通过问题复杂性的视角理解推理模型的优势和局限性

主要观点:新一代前沿语言模型引入大推理模型(LRMs),虽在推理基准上性能提升,但对其基本能力、缩放特性和局限性了解不足,当前评估主要集中于既定基准且易受数据污染,本工作借助可控谜题环境系统研究这些差距,可分析最终答案和内部推理轨迹以了解“思考”方式,实验表明前沿 LRMs 在一定复杂度后会完全准确率崩溃且有反直觉缩放限制,通过与标准 LLM 比较确定三种性能状态,还发现 LRMs 在精确计算方面有局限性及对推理轨迹的深入研究。
关键信息

  • 引入 LRMs 及当前评估不足。
  • 借助可控谜题环境研究。
  • 前沿 LRMs 的性能变化及限制。
  • 与标准 LLM 的比较及性能状态。
  • LRMs 在精确计算和推理轨迹方面的特点。
    重要细节
  • 相关阅读包括通过强化学习引导推理的训练范式及 GSM8K 基准评估数学推理能力。
  • 明确指出*为同等贡献,†为在苹果公司实习期间完成的工作。
阅读 12
0 条评论