主要观点:OpenAI 宣布 o3-pro 新版本可供 ChatGPT Pro 和 Team 用户使用,替代 o1-pro,且 API 价格大幅降低。o3-pro 专注于数学、科学和编程等领域,添加新功能但响应时间变慢,推荐用于对准确性要求高的复杂问题。测量“推理”能力有难度,o3-pro 在一些测试中表现较好但仍有局限性,本质上是模拟推理,与人类推理不同,模式匹配和推理并非相互排斥,目前技术在发展以弥补不足。
关键信息:
- 周二 OpenAI 宣布 o3-pro 可用,价格降低,API 价格 o3-pro 比 o1-pro 降 87%,o3 降 80%。
- o3-pro 专注多领域,添加新功能但响应慢,推荐用于复杂问题。
- 测量“推理”能力有难度,o3-pro 在多项测试中表现好但仍有事实错误。
- o3-pro 本质是模拟推理,与人类推理不同,模式匹配和推理并非相互排斥。
- 技术在发展以弥补不足,如 self-consistency sampling 等方法。
重要细节: - o3-pro 替换 o1-pro 位于模型选择器中。
- 提供 o3-pro 基准图表及在不同测试中的数据,如在 AIME 2024 等测试中的准确率。
- 引用苹果研究人员在受控环境中的测试结果,说明模型存在局限性。
- 提及一些新的发展方向如 self-critique prompts 和 tool augmentation 等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。