新的苹果研究对 AI 模型是否真正通过问题进行“推理”提出了挑战

主要观点:6 月初苹果研究人员发布研究表明模拟推理(SR)模型在面对新的系统性思维问题时,输出与训练数据的模式匹配一致,新研究发现其在新数学证明等方面表现不佳,与美国数学奥林匹克(USAMO)的研究结果相似。
关键信息

  • 研究对象包括 OpenAI 的 o1、o3 等模型及 DeepSeek-R1 和 Claude 3.7 Sonnet Thinking 等。
  • 研究团队由 Parshin Shojaee 和 Iman Mirzadeh 领导,还包括 Keivan Alizadeh 等多人。
  • 研究通过四种经典谜题测试“大型推理模型”(LRMs),发现模型在不同难度谜题中的表现不同,存在“反直觉缩放限制”及任务特定性失败等问题。
  • 有研究者认为结果可能反映训练约束而非固有能力不足,也有人质疑基于谜题的评估是否适合 LLM。
    重要细节
  • 研究指出当前评估主要关注既定数学和编码基准,未考察模型推理过程。
  • Gary Marcus 认为苹果结果对 LLM 是“毁灭性的”,Herb Simon 1957 年已解决汉诺塔问题。
  • 苹果团队发现模拟推理模型在不同难度谜题中与“标准”模型表现不同。
  • 研究人员提醒不要过度推断结果,承认谜题环境有局限性且推理模型在某些方面有改进和实用价值。
  • 这些研究虽未完全摧毁 AI 推理模型的信誉,但可能表明当前路径无法通向通用智能,AI 公司应在声称推理和智能突破时保持谨慎。
阅读 304
0 条评论