OpenAI 发布 o3 和 o3 Mini 模型
在“12 days of Shipmas”活动期间,OpenAI 发布了其最新的人工智能模型 o3 和 o3 Mini。这些模型在推理能力上较前代模型有显著提升,为开发者提供了解决更复杂任务的新机会。o3 在编码和数学领域的技术性能方面设立了新的基准。
性能表现
在 SWE-Bench Verified 编码基准测试中,o3 的准确率达到 71.7%,比 o1 提高了超过 20%。在 Codeforces 编程竞赛平台上,o3 在高计算配置下获得了 2727 的 ELO 评分。在美国数学邀请赛(AIME)基准测试中,o3 的准确率达到了 96.7%,较 o1 的 83.3% 有显著提升。
ARC 数据集表现
在 ARC 数据集上,o3 在半私有评估集上获得了 75.7% 的准确率(每任务约 20 美元的计算预算),而在高计算配置下(每任务 2000-3000 美元)达到了 87.5% 的准确率。ARC-AGI 基准测试是一个此前模型未能解决的挑战,o3 采用了集成自然语言程序搜索和执行的新范式,类似于 AlphaZero 的蒙特卡洛树搜索技术,并辅以深度学习评估器。
专家评价
ARC 基准测试的创建者 François Chollet 表示,o3 虽然取得了进步,但仍有一些非常简单的任务无法完成,表明与人类智能存在根本差异。他指出,低计算成本的 Kaggle 解决方案现在可以在私有评估集上获得 81% 的准确率。
未来挑战
随着模型在简单任务上的表现仍然不理想,OpenAI 正在应对 Epoch AI 的 Frontier Math 基准测试。o3 在 Frontier Math 基准测试中仅取得了约 25% 的准确率。早期测试表明,o3 在即将推出的 ARC-AGI-2 基准测试中可能面临重大挑战,预测准确率可能低于 30%。
GPT-5 开发延迟
OpenAI 的下一代 AI 模型(代号为 Orion,即 GPT-5)的开发遇到了成本上升、数据有限和设计挑战等障碍,导致原定于 2024 年初的发布延迟。GPT-5 的开发成本预计将超过 10 亿美元。
o3 Mini 的优势
o3 Mini 提供了低、中、高三种可扩展的思考时间选项,使开发者能够在性能、成本和延迟之间进行平衡。o3 Mini 在代码生成和问题解决方面表现出色,在 Codeforces 上获得了有竞争力的 ELO 评分,并以更低的成本匹配或超越了 o1 的性能。
实际应用
o3 Mini 在实时演示中展示了其高效生成复杂 Python 脚本的能力,例如创建本地服务器处理编码请求并显示结果。这种功能展示了 o3 Mini 在简化开发工作流程和自动化复杂过程中的实用性。
安全性
OpenAI 在开发这些强大模型时,安全性仍然是首要任务。通过“Deliberative Alignment”方法,o3 能够在响应提示之前明确推理安全政策,增强了合规性和适应性。通过将链式思维(CoT)推理集成到训练过程中,模型开始在日常使用中平衡安全性和实用性。
发布计划
o3 和 o3 Mini 预计将在 2024 年初广泛推出,o3 Mini 预计在 1 月底发布,o3 随后推出。开发者和研究人员可以通过 OpenAI 的安全测试计划申请早期访问。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。