OpenAI宣布推出o3和o3-mini,其下一代模拟推理模型

OpenAI 推出最新 AI 推理模型 o3 和 o3-mini

在为期 12 天的“OpenAI 12 天”活动中的第 12 天,OpenAI CEO Sam Altman 宣布了最新的 AI 推理模型 o3 和 o3-mini。这些模型基于今年早些时候发布的 o1 模型,但目前尚未正式发布,而是将首先提供给公众进行安全测试和研究访问。

模型特点

  • 私有思维链(Private Chain of Thought):模型在响应前会暂停,检查其内部对话并提前规划,这种机制被称为“模拟推理”(Simulated Reasoning, SR),超越了传统的大型语言模型(LLMs)。
  • 命名原因:为了避免与英国电信提供商 O2 的商标冲突,OpenAI 将新模型命名为 o3,而非 o2。

性能表现

  • ARC-AGI 基准测试:o3 在视觉推理基准测试 ARC-AGI 中创下了新纪录,低计算场景下得分为 75.7%,高计算场景下得分为 87.5%,接近人类表现的 85% 阈值。
  • 数学和科学测试:o3 在 2024 年美国数学邀请赛(AIME)中得分为 96.7%,仅错一题;在 GPQA Diamond(包含研究生级别的生物、物理和化学问题)中得分为 87.7%;在 EpochAI 的 Frontier Math 基准测试中解决了 25.2% 的问题,远超其他模型的 2% 表现。

o3-mini 特性

  • 自适应思考时间:o3-mini 提供了低、中、高三种处理速度,更高的计算设置能够产生更好的结果。
  • 性能提升:OpenAI 报告称,o3-mini 在 Codeforces 基准测试中表现优于其前身 o1。

模拟推理的兴起

OpenAI 的发布正值其他公司也在开发自己的模拟推理模型,例如:

  • Google:推出了 Gemini 2.0 Flash Thinking Experimental。
  • DeepSeek:发布了 DeepSeek-R1。
  • 阿里巴巴 Qwen 团队:发布了 QwQ,被称为 o1 的第一个“开放”替代品。

这些新模型基于传统的 LLMs,但通过微调,能够产生一种迭代的思维链过程,模拟推理过程,并在推理时进行扩展,而不是专注于 AI 模型训练期间的改进。

发布计划

OpenAI 将首先向安全研究人员提供新的 SR 模型进行测试。Altman 表示,公司计划在 1 月底推出 o3-mini,随后不久将推出 o3。

阅读 7
0 条评论