OpenAI 发布最新推理模型 o3-mini

主要观点

OpenAI 发布了其最新的推理大语言模型 o3-mini，该模型在 STEM（科学、技术、工程和数学）应用中表现出色，并在科学、数学和编程基准测试中优于全尺寸的 o1 模型。o3-mini 不仅响应延迟更低，还具有更高的性能效率。

发布时间与可用性：
- OpenAI 于 2024 年底预览了 o3-mini，现已正式向 ChatGPT Plus、Team 和 Pro 用户开放。
- 免费用户可通过聊天界面中的“Reason”按钮试用该模型。
性能提升：
- o3-mini 在响应延迟上比 o1-mini 快 2.5 秒，支持网络搜索以提供基于最新信息的答案。
- 模型支持低、中、高三个推理级别，控制生成响应时的“思考”阶段生成的 token 数量。
技术特点：
- 采用 链式思维（chain-of-thought） 技术，生成详细的逐步分析。
- 使用 审议对齐（deliberative alignment） 训练技术，确保模型遵守 OpenAI 的安全政策。
- 支持功能调用、结构化输出、流式响应和开发者消息等功能，但不支持图像处理。
基准测试表现：
- o3-mini 在数学、科学和编程任务上表现优异，甚至在低推理级别下也优于 o1-mini。
- 在高推理级别下，o3-mini 在多个基准测试（如 AIME 2024、GPQA Diamond 和 SWE-bench Verified）上超越了全尺寸的 o1 模型和 DeepSeek-R1。