OpenAI宣布推出o3和o3-mini，其下一代模拟推理模型 - SegmentFault 思否

OpenAI宣布推出o3和o3-mini，其下一代模拟推理模型

发布于 2024-12-21

OpenAI 推出最新 AI 推理模型 o3 和 o3-mini

在为期 12 天的“OpenAI 12 天”活动中的第 12 天，OpenAI CEO Sam Altman 宣布了最新的 AI 推理模型 o3 和 o3-mini。这些模型基于今年早些时候发布的 o1 模型，但目前尚未正式发布，而是将首先提供给公众进行安全测试和研究访问。

模型特点

私有思维链（Private Chain of Thought）：模型在响应前会暂停，检查其内部对话并提前规划，这种机制被称为“模拟推理”（Simulated Reasoning, SR），超越了传统的大型语言模型（LLMs）。
命名原因：为了避免与英国电信提供商 O2 的商标冲突，OpenAI 将新模型命名为 o3，而非 o2。

性能表现

ARC-AGI 基准测试：o3 在视觉推理基准测试 ARC-AGI 中创下了新纪录，低计算场景下得分为 75.7%，高计算场景下得分为 87.5%，接近人类表现的 85% 阈值。
数学和科学测试：o3 在 2024 年美国数学邀请赛（AIME）中得分为 96.7%，仅错一题；在 GPQA Diamond（包含研究生级别的生物、物理和化学问题）中得分为 87.7%；在 EpochAI 的 Frontier Math 基准测试中解决了 25.2% 的问题，远超其他模型的 2% 表现。

o3-mini 特性

自适应思考时间：o3-mini 提供了低、中、高三种处理速度，更高的计算设置能够产生更好的结果。
性能提升：OpenAI 报告称，o3-mini 在 Codeforces 基准测试中表现优于其前身 o1。

模拟推理的兴起

OpenAI 的发布正值其他公司也在开发自己的模拟推理模型，例如：

Google：推出了 Gemini 2.0 Flash Thinking Experimental。
DeepSeek：发布了 DeepSeek-R1。
阿里巴巴 Qwen 团队：发布了 QwQ，被称为 o1 的第一个“开放”替代品。

这些新模型基于传统的 LLMs，但通过微调，能够产生一种迭代的思维链过程，模拟推理过程，并在推理时进行扩展，而不是专注于 AI 模型训练期间的改进。

发布计划

OpenAI 将首先向安全研究人员提供新的 SR 模型进行测试。Altman 表示，公司计划在 1 月底推出 o3-mini，随后不久将推出 o3。

OpenAI announces o3 and o3-mini, its next simulated reasoning models

https://arstechnica.com/information-technology/2024/12/openai-announces-o3-and-o3-mini-its-next-simulated-reasoning-models/

阅读 8

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。