OpenAI 推出 o3-mini 推理模型反击 DeepSeek

过去一周，OpenAI在AI模型领域的领先地位受到了中国模型DeepSeek的强烈挑战。作为回应，OpenAI今日公开发布了其最新的模拟推理模型o3-mini，这是该公司首次向所有用户免费提供无需订阅的模型。

OpenAI在公告中强调，o3-mini“突破了小型模型所能达到的边界”。与之前的o1-mini类似，o3-mini在STEM功能上进行了优化，尤其在科学、数学和编程方面表现出色，同时运行成本和延迟低于o1-mini。

用户在使用o3-mini时可以选择三种不同的“推理努力选项”，以便根据任务在延迟和准确性之间进行微调。OpenAI表示，最低推理水平在数学和编程基准测试中的准确性与o1-mini相当，而最高水平则与完整的o1模型相当或超越。

测试结果显示，与o1-mini相比，o3-mini的“重大错误”减少了39%，并且在56%的情况下测试者更倾向于o3-mini的响应。此外，o3-mini的平均响应时间比o1-mini快了24%，从10.16秒降至7.7秒。

o3-mini还包含一个“早期原型”搜索功能，能够在适当情况下“找到最新的答案并提供相关网页链接”。

从今天起，OpenAI的Plus、Team或Pro订阅用户将看到o3-mini取代o1-mini作为模型选项。Plus和Team订阅用户每天可以使用新模型发送150条消息，比o1-mini的50条限制有所增加。

未付费用户也可以通过ChatGPT界面中的下拉菜单选择“Reason”来访问该模型，这是OpenAI首次向免费用户提供模拟推理模型。

尽管o3-mini在多个方面有所提升，OpenAI警告称，该模型在测试现实世界机器学习研究能力的评估中表现仍然不佳，特别是在自我改进方面。o3-mini在测试“模型是否能够自动化OpenAI研究工程师的工作”时得分为0%。

o3-mini系统使用“公开数据和内部开发的自定义数据集”进行训练，并经过“严格的过滤以保持数据质量并减轻潜在风险”。

OpenAI通过发布o3-mini模型，试图在AI模型领域重新确立其领先地位。尽管o3-mini在多个方面有所改进，特别是在推理速度和准确性上，但其在自我改进能力方面的表现仍然有限。这一发布也标志着OpenAI首次向免费用户提供高级推理模型，显示了其在市场竞争中的积极策略。