主要观点:6 月初苹果研究人员发布研究表明模拟推理(SR)模型在面对新的系统性思维问题时,输出与训练数据的模式匹配一致,新研究发现其在新数学证明等方面表现不佳,与美国数学奥林匹克(USAMO)的研究结果相似。
关键信息:
- 研究对象包括 OpenAI 的 o1、o3 等模型及 DeepSeek-R1 和 Claude 3.7 Sonnet Thinking 等。
- 研究团队由 Parshin Shojaee 和 Iman Mirzadeh 领导,还包括 Keivan Alizadeh 等多人。
- 研究通过四种经典谜题测试“大型推理模型”(LRMs),发现模型在不同难度谜题中的表现不同,存在“反直觉缩放限制”及任务特定性失败等问题。
- 有研究者认为结果可能反映训练约束而非固有能力不足,也有人质疑基于谜题的评估是否适合 LLM。
重要细节: - 研究指出当前评估主要关注既定数学和编码基准,未考察模型推理过程。
- Gary Marcus 认为苹果结果对 LLM 是“毁灭性的”,Herb Simon 1957 年已解决汉诺塔问题。
- 苹果团队发现模拟推理模型在不同难度谜题中与“标准”模型表现不同。
- 研究人员提醒不要过度推断结果,承认谜题环境有局限性且推理模型在某些方面有改进和实用价值。
- 这些研究虽未完全摧毁 AI 推理模型的信誉,但可能表明当前路径无法通向通用智能,AI 公司应在声称推理和智能突破时保持谨慎。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。