OpenAI 发布最新推理模型 o3-mini
主要观点
OpenAI 发布了其最新的推理大语言模型 o3-mini,该模型在 STEM(科学、技术、工程和数学)应用中表现出色,并在科学、数学和编程基准测试中优于全尺寸的 o1 模型。o3-mini 不仅响应延迟更低,还具有更高的性能效率。
关键信息
发布时间与可用性:
- OpenAI 于 2024 年底预览了 o3-mini,现已正式向 ChatGPT Plus、Team 和 Pro 用户开放。
- 免费用户可通过聊天界面中的“Reason”按钮试用该模型。
性能提升:
- o3-mini 在响应延迟上比 o1-mini 快 2.5 秒,支持网络搜索以提供基于最新信息的答案。
- 模型支持低、中、高三个推理级别,控制生成响应时的“思考”阶段生成的 token 数量。
技术特点:
- 采用 链式思维(chain-of-thought) 技术,生成详细的逐步分析。
- 使用 审议对齐(deliberative alignment) 训练技术,确保模型遵守 OpenAI 的安全政策。
- 支持功能调用、结构化输出、流式响应和开发者消息等功能,但不支持图像处理。
基准测试表现:
- o3-mini 在数学、科学和编程任务上表现优异,甚至在低推理级别下也优于 o1-mini。
- 在高推理级别下,o3-mini 在多个基准测试(如 AIME 2024、GPQA Diamond 和 SWE-bench Verified)上超越了全尺寸的 o1 模型和 DeepSeek-R1。
重要细节
- 输出限制:o3-mini 的输出 token 限制为 100,000,但由于“隐形推理 token”占用部分限制,实际输出可能无法达到上限。
- 应用前景:该模型在人类语言翻译等输出长度与输入相似的应用中表现值得关注,尤其是其低成本特性。
- 未来更新:OpenAI CEO Sam Altman 表示,模型的推理输出目前隐藏,但将很快展示其“思考过程”。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。