苹果的思维论文错觉探索大型推理模型的局限性

主要观点
Apple Machine Learning Research 发表论文《The Illusion of Thinking》,研究大型推理模型(LRMs)在一组谜题上的能力,发现随着谜题复杂度增加,LRMs 会遇到“崩溃”阈值,模型推理努力减少,表明其可扩展性有限。
通过四个谜题实验,包括汉诺塔等,及多种 LRMs 和标准语言模型,发现随着复杂度增加,模型行为经历三种状态,简单问题时推理和非推理模型表现相似,中复杂度时推理模型表现更好,高复杂度时两组性能都“崩溃至零”。
LRMs 如 o3 和 DeepSeek-R1 经微调可生成分步指令以更好回答,实验中分析模型生成的推理轨迹,简单问题时模型常“过度思考”,中复杂度问题时先探索错误解再找到正确解。
该论文在 AI 社区引发广泛辩论,认知科学家 Gary Marcus 认为 LLM 不能替代良好的常规算法,开源开发者 Simon Willison 则认为应关注其当前有用应用,不论是否是通向 AGI 的道路。
关键信息

  • 论文标题及研究对象:《The Illusion of Thinking》,研究 LRMs 在谜题上的能力。
  • 实验所选谜题及模型:包括汉诺塔等四个谜题,o3-mini、DeepSeek-R1 等多种模型。
  • 模型行为及状态:随复杂度增加经历三种状态,简单、中复杂度、高复杂度时表现不同。
  • LRM 特点及优势:经微调可“思考出声”以更好回答,能解决以前 LLM 无法处理的问题。
  • 研究局限性:主要依赖“黑箱”API 调用,实验用谜题结论不一定适用于所有推理领域。
    重要细节
  • 实验中谜题复杂度可变化,如汉诺塔的盘子数量可变。
  • Gary Marcus 指出 LLM 在多种方面不能替代常规算法。
  • Simon Willison 强调关注 LLM 当前有用应用。
  • Apple 承认研究的局限性并表示结论不一定普遍适用。
阅读 155
0 条评论