新的苹果研究对 AI 模型是否真正通过问题进行“推理”提出了挑战 - SegmentFault 思否

新的苹果研究对 AI 模型是否真正通过问题进行“推理”提出了挑战

发布于 6 月 12 日

主要观点：6 月初苹果研究人员发布研究表明模拟推理（SR）模型在面对新的系统性思维问题时，输出与训练数据的模式匹配一致，新研究发现其在新数学证明等方面表现不佳，与美国数学奥林匹克（USAMO）的研究结果相似。
关键信息：

研究对象包括 OpenAI 的 o1、o3 等模型及 DeepSeek-R1 和 Claude 3.7 Sonnet Thinking 等。
研究团队由 Parshin Shojaee 和 Iman Mirzadeh 领导，还包括 Keivan Alizadeh 等多人。
研究通过四种经典谜题测试“大型推理模型”（LRMs），发现模型在不同难度谜题中的表现不同，存在“反直觉缩放限制”及任务特定性失败等问题。
有研究者认为结果可能反映训练约束而非固有能力不足，也有人质疑基于谜题的评估是否适合 LLM。
重要细节：
研究指出当前评估主要关注既定数学和编码基准，未考察模型推理过程。
Gary Marcus 认为苹果结果对 LLM 是“毁灭性的”，Herb Simon 1957 年已解决汉诺塔问题。
苹果团队发现模拟推理模型在不同难度谜题中与“标准”模型表现不同。
研究人员提醒不要过度推断结果，承认谜题环境有局限性且推理模型在某些方面有改进和实用价值。
这些研究虽未完全摧毁 AI 推理模型的信誉，但可能表明当前路径无法通向通用智能，AI 公司应在声称推理和智能突破时保持谨慎。

New Apple study challenges whether AI models truly “reason” through problems

https://arstechnica.com/ai/2025/06/new-apple-study-challenges-whether-ai-models-truly-reason-through-problems/

阅读 304

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。