OpenAI 推出 o3-mini 推理模型反击 DeepSeek

OpenAI发布o3-mini模型,挑战中国DeepSeek模型

过去一周,OpenAI在AI模型领域的领先地位受到了中国模型DeepSeek的强烈挑战。作为回应,OpenAI今日公开发布了其最新的模拟推理模型o3-mini,这是该公司首次向所有用户免费提供无需订阅的模型。

o3-mini的主要特点

OpenAI在公告中强调,o3-mini“突破了小型模型所能达到的边界”。与之前的o1-mini类似,o3-mini在STEM功能上进行了优化,尤其在科学、数学和编程方面表现出色,同时运行成本和延迟低于o1-mini。

性能提升

用户在使用o3-mini时可以选择三种不同的“推理努力选项”,以便根据任务在延迟和准确性之间进行微调。OpenAI表示,最低推理水平在数学和编程基准测试中的准确性与o1-mini相当,而最高水平则与完整的o1模型相当或超越。

测试结果显示,与o1-mini相比,o3-mini的“重大错误”减少了39%,并且在56%的情况下测试者更倾向于o3-mini的响应。此外,o3-mini的平均响应时间比o1-mini快了24%,从10.16秒降至7.7秒。

新功能

o3-mini还包含一个“早期原型”搜索功能,能够在适当情况下“找到最新的答案并提供相关网页链接”。

用户访问

从今天起,OpenAI的Plus、Team或Pro订阅用户将看到o3-mini取代o1-mini作为模型选项。Plus和Team订阅用户每天可以使用新模型发送150条消息,比o1-mini的50条限制有所增加。

未付费用户也可以通过ChatGPT界面中的下拉菜单选择“Reason”来访问该模型,这是OpenAI首次向免费用户提供模拟推理模型。

自我改进能力

尽管o3-mini在多个方面有所提升,OpenAI警告称,该模型在测试现实世界机器学习研究能力的评估中表现仍然不佳,特别是在自我改进方面。o3-mini在测试“模型是否能够自动化OpenAI研究工程师的工作”时得分为0%。

训练与安全

o3-mini系统使用“公开数据和内部开发的自定义数据集”进行训练,并经过“严格的过滤以保持数据质量并减轻潜在风险”。

总结

OpenAI通过发布o3-mini模型,试图在AI模型领域重新确立其领先地位。尽管o3-mini在多个方面有所改进,特别是在推理速度和准确性上,但其在自我改进能力方面的表现仍然有限。这一发布也标志着OpenAI首次向免费用户提供高级推理模型,显示了其在市场竞争中的积极策略。

阅读 10
0 条评论