OpenAI:o1、o1-mini与o3-mini的对比
📖阅读时长:25分钟
🕙发布时间:2025-02-07
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
OpenAI o1是一种经过强化学习训练的大型语言模型,具备执行复杂推理的能力。o1在回答问题前会先进行思考,它能在响应用户之前,生成一条较长的内部思维链。
通过训练,模型学会优化自身的思考过程,尝试不同策略,并认识到自己的错误。推理能力使得o1模型能够遵循我们设定的特定准则和模型策略,确保其行为符合安全预期。这意味着它们更善于提供有用的答案,同时抵制绕过安全规则的企图,避免生成不安全或不适当的内容。
这些模型在多样化的数据集上进行预训练,包括公开可用的数据、通过合作伙伴关系获取的专有数据,以及内部开发的自定义数据集。这些数据共同造就了模型强大的推理和对话能力。
大规模强化学习算法教会模型如何在数据高效的训练过程中,利用思维链进行高效思考。o1的性能会随着训练时和测试时的计算量稳步提升。研究发现,随着强化学习(训练时计算)的增加以及思考时间(测试时计算)的延长,o1的性能持续提高。
推理的工作原理
o1模型引入了推理标记。模型使用这些推理标记进行 “思考”,拆解对提示的理解,并考虑多种生成回复的方法。在生成推理标记后,模型会生成一个答案作为可见的完成标记,并从上下文中丢弃推理标记。
关于提示的建议
这些模型在简单直接的提示下表现最佳。某些提示工程技术,比如小样本提示或指示模型 “逐步思考”,可能不会提升性能,有时甚至会起到反作用。
- 保持提示简单直接:这些模型擅长理解和回应简短、清晰的指令,无需过多引导。
- 避免思维链提示:由于这些模型在内部执行推理,因此无需提示它们 “逐步思考” 或 “解释推理过程”。
- 使用分隔符清晰明了:使用三引号、XML标签或章节标题等分隔符,清晰指示输入的不同部分,帮助模型正确解读。
- 在检索增强生成(RAG)中限制额外上下文:在提供额外上下文或文档时,仅包含最相关的信息,防止模型使回复过于复杂。
评估
o1在绝大多数推理密集型任务上的表现显著优于GPT-4o。在具有挑战性的推理基准测试中,o1相比GPT-4o有大幅提升。实线条表示单次通过率(pass@1 accuracy),阴影区域表示64个样本多数投票(共识)的性能。o1在广泛的基准测试中都优于GPT-4o,涵盖54/57个MMLU子类别。
有一个模型基于o1进行初始化和训练,以进一步提升编程技能。该模型在与人类参赛者相同的条件下,参加了2024年国际信息学奥林匹克竞赛,获得213分,在2024年IOI中排名第49个百分位。
o1在竞争性编程问题(Codeforces)中排名第89个百分位;在美国数学奥林匹克竞赛(AIME)资格赛中,跻身美国前500名学生之列;在物理、生物和化学问题基准(GPQA)测试中,其准确性超过了人类博士水平。
o1-preview
o1-preview是早期模型,尚不具备ChatGPT的许多实用功能,比如浏览网页获取信息、上传文件和图像等。
OpenAI o1-mini
OpenAI o1-mini是一款经济高效的推理模型,在STEM领域(尤其是数学和编码)表现出色,在评估基准上的性能几乎与OpenAI o1相当。
- 数学:在高中AIME数学竞赛中,o1-mini的正确率为70.0% ,与o1的74.4% 相比颇具竞争力,且成本明显更低,成绩优于o1-preview的44.6% 。o1-mini大约答对11/15道题,这使其在美国高中生中大约排名前500。
- 编码:在Codeforces竞赛网站上,o1-mini的Elo评分为1650,与o1的1673分相当,且高于o1-preview的1258分。该Elo评分使o1-mini在Codeforces平台的程序员中大约处于第86个百分位。o1-mini在HumanEval编码基准测试和高中级网络安全夺旗挑战(CTF)中也表现不俗。
- STEM:在一些需要推理的学术基准测试中,如GPQA(科学)和MATH-500,o1-mini的表现优于GPT-4o。但在MMLU等任务中,o1-mini的表现不如GPT-4o;由于缺乏广泛的常识,在GPQA测试中,o1-mini的成绩落后于o1-preview。
- 模型速度:在GPT-4o未能正确回答的情况下,o1-mini和o1-preview都答对了,且o1-mini找到答案的速度比o1-preview快约3 - 5倍。
o1 pro mode
o1 pro mode能够生成更可靠、准确和全面的回复,尤其在数据科学、编程和判例法分析等领域表现突出。与o1和o1-preview相比,o1 pro mode在数学、科学和编码等具有挑战性的ML基准测试中表现更优。该模式采用4/4可靠性标准,即只有在四次尝试中全部答对,才视为成功解决问题。
O3 Mini
OpenAI o3-mini是OpenAI最新推出的、性价比最高的推理模型,专注于STEM领域(科学、数学和编码)。它采用 “先思考后回答” 的方式,通过强化学习进行复杂推理训练。模型在经过严格质量和安全筛选的各种数据集(公共和自定义)上进行预训练。o3-mini支持函数调用、结构化输出和开发人员消息,可直接应用于实际生产。它提供低、中、高三种推理强度选项,用于优化速度和准确性的平衡。与OpenAI o1不同,o3-mini不支持视觉推理任务。
具有中等推理强度的o3-mini在数学、编码和科学方面的表现与o1相当,在包括AIME和GPQA等最具挑战性的推理和智能评估中,o3-mini不仅表现出色,还能提供更快的回复。
专家测试人员的评估显示,o3-mini生成的答案比OpenAI o1-mini更准确、更清晰,推理能力更强。测试人员在56% 的情况下更倾向于o3-mini的回复,并且发现o3-mini在解决现实难题时,主要错误率降低了39%。
- 数学竞赛(AIME 2024):灰色阴影区域表示64个样本多数投票(共识)的表现。低推理强度下,OpenAI o3-mini的表现与OpenAI o1-mini相当;中等推理强度时,o3-mini与o1表现相当;高推理强度时,o3-mini的性能优于OpenAI o1-mini和OpenAI o1。
- 博士级科学题(GPQA Diamond):低推理强度时,OpenAI o3-mini的性能高于OpenAI o1-mini;高推理强度时,o3-mini与o1表现相当。
- 前沿数学(FrontierMath):高推理强度的OpenAI o3-mini在FrontierMath测试中的表现优于其前身。当被提示使用Python工具时,高推理强度的o3-mini首次尝试就能解决超过32% 的问题,其中包括超过28% 的高难度(T3)问题。
- 竞赛代码(Codeforces):o3-mini随着推理强度的增加,Elo评分逐步提高,均优于o1-mini。在中等推理强度下,o3-mini与o1表现相当。
- 软件工程(SWE-bench Verified):o3-mini是SWEbench验证中性能最强的已发布模型。
- LiveBench编码:OpenAI o3-mini即使在中等推理强度下,表现也超越o1。在高推理强度下,o3-mini进一步扩大领先优势,在关键指标上表现更为出色。
- 常识:o3-mini在常识领域的知识评估中表现优于o1-mini。
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。