新研究表明为何模拟推理 AI 模型尚未达到其宣传效果

主要观点:当今最强大的声称能“推理”的 AI 模型存在矛盾,能准确解决常规数学问题,但在竞赛级的深层数学证明任务中常失败。
关键信息

  • 一项关于模拟推理(SR)模型的研究发现,其在数学证明方面表现不佳,如在 2025 年美国数学奥林匹克竞赛问题中平均正确率低于 5%。
  • 模拟推理模型与传统大语言模型的区别在于能输出逐步的“思考”过程即“思维链”。
  • 研究评估了多个 AI 推理模型在 2025 年美国数学奥林匹克竞赛的 6 个问题上的表现,多数模型成绩不佳,仅 Gemini 2.5 Pro 稍好。
  • 模型存在逻辑漏洞、基于未证明假设、持续错误等失败模式,可能源于训练优化方式。
  • 数学问题和证明的差异暴露了模式识别与真正数学推理的区别,思维链虽能提升结果但本质仍是模式匹配。
  • 即便未来 SR 模型可能缩小差距,目前研究表明单纯扩展架构和训练方法可能无法实现真正的数学推理,需探索替代方法。
    重要细节
  • 介绍了不同 AI 模型如 Qwen、DeepSeek R1、Gemini 2.0 等在竞赛中的表现及成绩。
  • 以 USAMO 2025 Problem 5 为例说明模型的错误,如 Qwen 模型的失误。
  • 解释了推理模型在复杂任务中表现更好的原因及“思维链”的作用。
  • 提及其他研究对类似高难度数学挑战中 LLM 的评估及结论。
  • 探讨了改善 AI 推理的替代方法,如整合符号推理引擎等。
阅读 10
0 条评论