随着 o3-pro 的推出，让我们谈谈 AI“推理”实际上做了什么

发布于 6 月 12 日

主要观点：OpenAI 宣布 o3-pro 新版本可供 ChatGPT Pro 和 Team 用户使用，替代 o1-pro，且 API 价格大幅降低。o3-pro 专注于数学、科学和编程等领域，添加新功能但响应时间变慢，推荐用于对准确性要求高的复杂问题。测量“推理”能力有难度，o3-pro 在一些测试中表现较好但仍有局限性，本质上是模拟推理，与人类推理不同，模式匹配和推理并非相互排斥，目前技术在发展以弥补不足。
关键信息：

周二 OpenAI 宣布 o3-pro 可用，价格降低，API 价格 o3-pro 比 o1-pro 降 87%，o3 降 80%。
o3-pro 专注多领域，添加新功能但响应慢，推荐用于复杂问题。
测量“推理”能力有难度，o3-pro 在多项测试中表现好但仍有事实错误。
o3-pro 本质是模拟推理，与人类推理不同，模式匹配和推理并非相互排斥。
技术在发展以弥补不足，如 self-consistency sampling 等方法。
重要细节：
o3-pro 替换 o1-pro 位于模型选择器中。
提供 o3-pro 基准图表及在不同测试中的数据，如在 AIME 2024 等测试中的准确率。
引用苹果研究人员在受控环境中的测试结果，说明模型存在局限性。
提及一些新的发展方向如 self-critique prompts 和 tool augmentation 等。

阅读 339