DeepSeek-R1， OpenAI o1 & o3， 计算缩放， 模型后训练和向推理语言模型（RLMs）的过渡

DeepSeek-R1、OpenAI o1与o3：测试时计算缩放、模型后训练及向推理语言模型（RLMs）的过渡

📖阅读时长：15分钟

🕙发布时间：2025-02-04

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

一、引言

在过去的一年里，生成式AI的应用和AI Agent的开发呈爆发式增长。LangChain的报告显示，51%的受访者在生产环境中使用AI代理；而德勤的报告预测，到2025年，至少25%使用生成式AI的公司将启动AI代理试点项目或进行概念验证。尽管AI Agent框架广受欢迎且发展迅速，但任何构建这些系统的人都会很快遇到使用大型语言模型（LLM）的局限，其中模型的推理能力往往是最突出的问题。

为了克服推理方面的局限，研究人员和开发人员探索了各种不同的技术。从ReAct、思维链（Chain of Thought，CoT）等不同的提示方法，到构建具有专门用于规划和评估的独立代理的多代理系统。如今，各公司也在发布经过专门训练的新模型，以改进模型的内置推理过程。

DeepSeek的R1以及OpenAI的o1和o3的发布，凭借比传统LLM更强大的推理能力，在行业内引起了轰动。这些模型经过训练，能够在回答前进行“思考”，拥有自包含的推理过程，可以将任务分解为更简单的步骤，对这些步骤进行迭代处理，在返回最终答案前识别并纠正错误。这与GPT-4o等早期模型有所不同，早期模型需要用户通过提示模型逐步思考，并为模型创建循环以迭代地规划、执行任务和评估进度，从而构建自己的推理逻辑。训练o1、o3和R1等推理语言模型（RLM）的关键差异之一，在于对训练后和测试时计算扩展的重视。

在本文中，我们将探讨训练时和测试时计算扩展的主要区别、模型后训练、如何训练像DeepSeek的R1这样的RLM，以及RLM对AI Agent开发的影响。

二、训练时计算与测试时计算

（一）概述

计算扩展指的是为训练和运行AI模型提供更多的资源，如处理能力和内存。简单来说，训练时计算扩展适用于模型学习通用模式的预训练阶段，以及基础模型通过强化学习（RL）或监督微调（Supervised Fine-Tuning，SFT）等额外训练来学习更特定行为的训练后阶段。相比之下，测试时计算扩展应用于推理阶段，即进行预测时，它为模型提供更多的计算能力，使其能够在生成最终答案前探索多种可能的解决方案，从而进行“思考”。

需要注意的是，测试时计算扩展和后训练都可以帮助模型在生成最终响应前进行“思考”，但它们的实现方式有所不同。

测试时计算扩展在推理时支持探索多种解决方案，而无需更改模型本身；后训练则涉及更新或创建新模型。这两种方法可以结合使用。理论上，你可以采用像DeepSeek-R1这样经过后训练以提升推理能力的模型，并通过测试时计算扩展在推理时进行额外搜索，进一步增强其推理能力。

。描述了训练前和训练后的非常简单的表示。请注意，后训练可能会有很大的变化，但本质上，基本模型会以某种方式进行修改，以创建更适合任务的更新模型。

（二）训练时间计算：训练前和训练后

如今，大多数LLMs和基础模型都在大量数据上进行预训练，这些数据来源广泛，如Common Crawl，涵盖了丰富多样的人类编写文本。在预训练阶段，模型学习在给定上下文中预测下一个最可能出现的单词或标记。预训练完成后，大多数模型会进行某种形式的监督微调（SFT），以针对指令遵循或基于聊天的应用场景进行优化。想了解这些训练过程的更多信息，可以查看我之前的一篇文章。

总体而言，这个训练过程极为耗费资源。在训练出像Claude 3.5 Sonnet、GPT-4o、Llama 3.1 - 405B等模型之前，往往需要进行多次训练，每次训练成本高达数百万美元。这些模型在通用任务上表现卓越，在逻辑推理、数学、编码、阅读理解等多个主题的各种基准测试中都有出色的成绩。

然而，尽管这些模型在众多问题类型上表现优异，但要让典型的LLM在响应前真正进行“思考”，用户需要进行大量的工程设计。从根本上讲，这些模型接收输入后，直接返回输出作为最终答案。你可以将其理解为模型基于预训练学到的信息，或根据用户提示中的指令和信息进行上下文学习，一步生成最佳猜测结果。这就是代理框架、思维链（CoT）提示和工具调用流行起来的原因，这些模式允许人们围绕LLM构建系统，为LLM应用程序开发提供更具迭代性、结构化且更易成功的工作流程。

最近，像DeepSeek-R1这样的模型与典型的为优化聊天或指令遵循而设计的预训练和后训练模式有所不同。DeepSeek-R1采用多阶段后训练流程，教会模型更具体的行为，如如何生成思维链序列，进而提升模型的整体“思考”和推理能力。

（三）测试时计算扩展：在推理中启用“思考”

测试时计算扩展和后训练令人兴奋的地方在于，推理和迭代解决问题的能力可以内置到模型本身或其推理管道中。无需依赖开发人员引导整个推理和迭代过程，模型有机会探索多种解决方案路径、反思自身进度、对最佳解决方案路径进行排序，并在向用户发送响应前优化整个推理生命周期。

测试时计算扩展与优化推理性能密切相关，且不涉及修改模型参数。实际意义在于，像Llama 3.2 - 8b这样较小的模型，通过在推理时花费更多时间“思考”，研究众多可能的解决方案，能够与更大的模型竞争。

一些常见的测试时扩展策略包括自我优化，即模型迭代优化自身输出；以及针对验证器进行搜索，即生成多个可能答案，由验证器选择最佳路径继续推进。针对验证器的常见搜索策略包括：

N次最佳（Best-of-N）：针对每个问题生成多个响应，对每个答案进行评分，得分最高的答案获胜。
束搜索（Beam Search）：通常使用流程奖励模型（Process Reward Model，PRM）对多步骤推理过程进行评分。首先生成多个解决方案路径（束），确定哪些路径最适合继续搜索，然后生成一组新的子路径并进行评估，持续此过程直至找到解决方案。
多样化验证器树搜索（Diverse Verifier Tree Search，DVTS）：与束搜索相关，但会为每个初始路径（束）创建单独的树。然后扩展每棵树，并使用PRM对树的分支进行评分。

确定哪种搜索策略最优仍是一个活跃的研究领域，但HuggingFace上有许多优质资源，为如何根据具体应用场景实施这些搜索策略提供了示例。

三、训练推理语言模型（RLM）

OpenAI在2024年9月发布的o1模型，是首批旨在在响应用户前进行“思考”的模型之一。虽然与GPT-4o等模型相比，从o1获取响应所需的时间更长，但o1的响应在处理更高级的任务时表现更出色，因为它能够生成思维链，帮助分解和解决问题。

与前几代模型相比，使用o1和o3需要不同风格的提示工程，因为这些以推理为重点的新模型的运行方式与前代模型有很大差异。例如，告诉o1或o3“一步一步思考”，其效果不如对GPT-4o给出相同指令。

由于OpenAI的o1和o3模型是闭源的，我们无法确切了解其开发过程；这也是DeepSeek-R1备受关注的重要原因。DeepSeek-R1是首个在行为和性能上与OpenAI的o1相媲美的开源模型。这对开源社区来说意义重大，意味着开发人员可以根据自身需求修改R1，并且在计算能力允许的情况下，还能复制R1的训练方法。

（一）DeepSeek-R1训练过程

DeepSeek-R1-Zero：首先，DeepSeek在其基础模型DeepSeek-V3上进行强化学习（RL）（后训练），得到了DeepSeek-R1-Zero模型。该模型学会了如何推理、创建思维链序列，并具备自我验证和反思等能力。一个模型仅通过强化学习就能学习到这些行为，这对整个AI行业来说意义非凡。然而，尽管DeepSeek-R1-Zero的学习能力令人惊叹，但它存在语言混合、可读性差等严重问题。这促使团队探索其他方法来稳定模型性能，打造更适用于生产环境的模型。
DeepSeek-R1：创建DeepSeek-R1需要一个多阶段的后训练流程，在SFT和RL步骤之间交替进行。研究人员首先使用数千个思维链（CoT）序列示例形式的冷启动数据，在DeepSeek-V3上进行监督微调（SFT），目的是为强化学习创建一个更稳定的起点，解决DeepSeek-R1-Zero存在的问题。接着，研究人员进行强化学习，并设置奖励机制，以促进语言一致性，增强在科学、编码和数学等任务上的推理能力。然后，再次进行监督微调，这次加入了非推理重点的训练示例，帮助模型保留写作、角色扮演等更多通用能力。最后，再次进行强化学习，以更好地符合人类偏好。最终得到了一个拥有6710亿参数的高性能模型。
提炼的DeepSeek-R1模型：DeepSeek团队进一步证明，仅通过监督微调（SFT），无需强化学习（RL），就可以将DeepSeek-R1的推理能力提炼到开源的较小模型中。他们基于Qwen和Llama架构，对参数在15亿 - 700亿之间的较小模型进行微调，得到了一组更轻量、更高效且推理能力更强的模型。这极大地提高了开发人员的可及性，因为许多提炼后的模型可以在他们的设备上快速运行。

四、结论：改进的推理模型对AI代理的影响

随着以推理为优先的模型和测试时计算扩展技术的不断发展，与AI代理交互的系统设计、功能和用户体验将发生显著变化。

展望未来，我相信我们会看到更精简的代理团队。不再是使用单独的代理以及针对特定用例的大量提示和工具，而是可能出现由单个推理语言模型（RLM）管理整个工作流程的设计模式。如果代理能够更好地探索各种不同的解决方案路径，这也可能改变用户需要向代理提供的背景信息量。

用户与代理的交互方式也会改变。如今，许多代理界面仍以聊天为主，用户期望获得近乎即时的响应。鉴于推理语言模型（RLM）的响应时间较长，我认为用户的期望和体验将会改变，我们会看到更多用户将任务委派给代理团队在后台执行的情况。根据任务的复杂程度，执行时间可能从几分钟到数小时不等，但理想情况下，最终会生成全面且高度可追溯的输出结果。这将使人们能够同时将许多任务委派给不同的代理团队，从而将时间集中在以人为中心的任务上。

尽管许多专注于推理的模型表现出色，但它们中的许多仍然缺乏工具调用能力。OpenAI新发布的o3-mini是首个原生支持工具调用、结构化输出和开发人员提示（新版系统提示）的推理模型。工具调用对于代理至关重要，因为它使代理能够与外界交互、收集信息，并代表我们实际执行任务。鉴于该领域的创新速度很快，我预计我们很快会看到更多集成了工具调用功能的推理语言模型（RLM）。

DeepSeek-R1， OpenAI o1 & o3，计算缩放，模型后训练和向推理语言模型（RLMs）的过渡

DeepSeek-R1、OpenAI o1与o3：测试时计算缩放、模型后训练及向推理语言模型（RLMs）的过渡

一、引言

二、训练时计算与测试时计算

（一）概述

（二）训练时间计算：训练前和训练后

（三）测试时计算扩展：在推理中启用“思考”

三、训练推理语言模型（RLM）

（一）DeepSeek-R1训练过程

四、结论：改进的推理模型对AI代理的影响

推荐阅读

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

一文掌握 MCP 上下文协议：从理论到实践

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式

90%的开发者都忽略的文本向量化技巧！

DeepSeek-R1， OpenAI o1 & o3， 计算缩放， 模型后训练和向推理语言模型（RLMs）的过渡

DeepSeek-R1、OpenAI o1与o3：测试时计算缩放、模型后训练及向推理语言模型（RLMs）的过渡

一、引言

二、训练时计算与测试时计算

（一）概述

（二）训练时间计算：训练前和训练后

（三）测试时计算扩展：在推理中启用“思考”

三、训练推理语言模型（RLM）

（一）DeepSeek-R1训练过程

四、结论：改进的推理模型对AI代理的影响

推荐阅读

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

一文掌握 MCP 上下文协议：从理论到实践

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式

90%的开发者都忽略的文本向量化技巧！

DeepSeek-R1， OpenAI o1 & o3，计算缩放，模型后训练和向推理语言模型（RLMs）的过渡