DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者

作者：京东科技蔡欣彤

一、引言：AI时代的挑战与DeepSeek的崛起

在大模型时代，AI技术的飞速发展带来了前所未有的机遇，但也伴随着巨大的挑战。随着模型规模的不断扩大，算力需求呈指数级增长，训练成本飙升，而性能提升的边际收益却逐渐递减，形成了所谓的“Scaling Law”瓶颈。与此同时，OpenAI、谷歌等巨头通过闭源策略垄断技术，限制了中小企业和研究机构的参与空间。在这样的背景下，DeepSeek应运而生，以“低成本+高性能+开源”为核心理念，致力于打破行业壁垒，为AI普惠化开辟了新的可能性。

但每一个大模型爆火的背后都是需要经历一代代的技术积累和演进,所以文本介绍一下 DeepSeek 系列主要模型的发布历史及每一代模型的技术突破。

二、DeepSeek的发展历程

1.DeepSeek-V1

DeepSeek V1是2024年1月份发布的第一版DeepSeek模型,论文地址: https://github.com/deepseek-ai/deepseek-LLM

DeepSeek-V1 有 7B 和 67B 两个版本,并且每个版本分别有基础和聊天的模型,它支持多种编程语言，具有强大的编码能力，适合程序开发人员和技术研究人员使用。

1.1 技术分析

•数据层面:通过包括去重、过滤、混合3个步骤构建一个多样性强、纯净的高质量预训练数据

•模型结构方面: 模型的主体结构基本沿用LLaMA的体系结构, 在注意力机制方面, 7B模型使用多头注意力Multi-Head attention (MHA),而67B模型使用Grouped-Query Attention (GQA)替代MHA用来降低成本

1.2 成果解读

第一代的模型在我看来更多的还是复现LLaMA,虽然采用了更优质的训练集提升了性能,但就像DeepSeek论文中提到,也存在潜在缺点:过渡依赖培训数据容易产生偏见;幻觉问题没有处理很好;在其生成的响应中表现出重复回答等问题.

2.DeepSeek-V2

2024年5月左右发布了DeepSeek-V2,论文地址: https://github.com/deepseek-ai/DeepSeek-V2 .

这个版本的发布也让deepSeek正式引起了大模型领域的关注.

2.1 技术分析

DeepSeek V2最核心的点都在改动模型结构上.分别为 多头潜在注意力机制(Multi-head Latent Attention,MLA) 和 DeepSeekMoE架构, 这两点也为后面的R1版本奠定了基础.

整体结构如下图:在注意力机制部分采用MLA,在前馈网络(FFN)部分采用DeepSeekMoE的结构.

在这里插入图片描述

2.1.1 MLA

在标准的 Transformer 模型中，多头注意力机制（MHA）通过并行计算多个注意力头来捕捉输入序列中的不同特征,每个注意力头都有自己的Q,K,V. 这样在处理长序列时，键值缓存（KV Cache）的内存开销会随着序列长度线性增长，这成为大模型推理效率的主要瓶颈之一.

MLA利用低秩键值联合压缩来消除推理时间键值缓存的瓶颈，从而支持有效的推理.MLA的具体实现包括以下关键技术：

•低秩键值联合压缩（low-rank key-value joint compression）：MLA通过将键和值矩阵压缩到低维空间，减少了KV Cache的内存占用。

•多头潜在注意力：MLA在传统多头注意力的基础上，引入了潜在注意力机制，通过动态调整注意力头的计算方式，进一步优化了长序列处理的效率。

•稀疏注意力：MLA通过稀疏化注意力权重，减少了计算复杂度，同时保持了模型的性能。

2.1.2 DeepSeekMoE

DeepSeekMoE对比传统的混合专家模型（Mixture of Experts, MoE）,多了2个核心优化:

•细粒度专家划分:如图(b)Fine-grained Expert,DeepSeekMoE 将专家数量大幅增加,每个专家负责更小的输入空间。这种细粒度划分使专家能够更专注于特定任务，从而提高模型的表达能力和泛化性能

•共享专家隔离:如图(c)Shared Expert DeepSeekMoE 引入共享专家机制,用于捕获跨任务的通用知识. 这样的设计减少了路由专家之间的冗余，提高了参数效率,还改善了负载均衡问题，避免了某些专家被过度激活的情况.(简单点来说,就是共享专家干通用的活,其他专家干自己更专业的活)

在这里插入图片描述

此外,DeepSeekMoE还做了负载均衡策略,

•负载均衡策略:论文中为Load Balance Consideration

◦Expert-Level Balance Loss:创新性地避免了传统负载均衡方法对模型性能的负面影响，通过灵活的批量负载均衡策略，允许专家在不同领域中更好地专业化

◦Device-Level Balance Loss:在分布式训练和推理中，DeepSeekMoE 通过设备受限的路由机制，将专家分配到不同的设备上，并限制每个设备只能访问本地专家。这减少了跨设备通信的开销，显著提升了训练和推理效率

2.2 成果解读

高效的性能与低成本:通过上面的结构优化,降低了计算开销,训练成本的降低大幅降低了开发门槛，适合科研和商业化应用

在这里插入图片描述

3.DeepSeek-V3

DeepSeek-V3 是在2024年12月26正式发布. 论文地址: DeepSeekV3 Technical Report

DeepSeek-V3是该系列中的一个里程碑版本,专注于知识类任务和数学推理，性能大幅度提升,这个版本的发布也让DeepSeek走进了大众视野.

整体来说,V3版本继续沿用了V2版本的MLA和DeepSeekMoE结构,总使用了671B参数,完成整个训练时间也减少很多.

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.

3.1 技术分析

DeepSeekV3在模型结构上的核心优化有两点:

1.对DeepSeekMoE中的多专家负载均衡问题，提出了无辅助损失负载均衡策略( auxiliary-loss-free strategy ) ，相比使用辅助loss提升了模型性能；

2.引入多Token预测(Multi-Token Prediction,MTP)技术，相比原来每次只能预测一个token，显著提升了infer的速度。

3.1.1 auxiliary-loss-free strategy

无辅助损失策略旨在解决传统 MoE 模型中因负载不均衡导致的计算效率下降和性能损失问题.

传统的 MoE 模型中，专家负载不均衡是一个常见问题。某些专家可能会被过度激活，而其他专家则处于闲置状态，这不仅降低了计算效率，还可能导致路由崩溃（routing collapse），从而影响模型性能.为了解决这一问题，传统方法通常依赖于辅助损失（Auxiliary Loss），通过额外的损失函数来强制均衡专家的负载。然而，辅助损失可能会对模型性能产生负面影响，尤其是在损失权重设置不当的情况下.

而无辅助损失负载均衡策略则是通过动态调整专家路由的偏差项（bias term）来实现负载均衡，而无需引入额外的辅助损失函数.具体来说：

• ****偏差项调整：在训练过程中，系统会监控每个专家的负载情况。如果某个专家过载，则减少其偏差项；如果某个专家欠载，则增加其偏差项。这种动态调整确保了专家负载的均衡，同时避免了辅助损失对模型性能的干扰

• 路由机制：在计算专家亲和度分数（affinity score）时，偏差项被添加到亲和度分数中，以确定每个 token 应该路由到哪些专家。门控值（gating value）仍然基于原始的亲和度分数计算，从而保持了模型的路由灵活性

采用这种方法,无需引入额外的损失函数，从而在保持模型性能的同时提高了训练稳定性

3.1.2 MTP

传统的模型通常采用单Token预测目标，即每次将当前预测结果作为最新的一个输入，再次预测下一个。而MTP则扩展了这一目标，要求模型在每个时间同时预测多个未来的Token（例如2个、3个或更多）。

使用MTP, 一方面每次预测多个Token，可使训练信号更密集，提高数据利用效率和训练速度，另一方面也可以让模型在生成后续token的时候有一个全局性，从而生成更连贯和语义准确的文本.

大致做法:模型除了有一个主模型,还有几个并行的MTP模块.这些MTP模块的Embedding层和Output Head和主模型共享.在主模型预测了next token后，将这个预测token的表征和之前token的Embedding拼接到一起，生成一个新的输入（超出长度的更久远的token被才减掉）。这个拼接好的Embedding输入到第一个MTP中预测next next token。以此类推..

文中引入Multi-Token Prediction主要为了提升训练效果，推理阶段可以直接去掉这些MTP模块，主模型可以独立运行，确保模型的正常工作.

在这里插入图片描述

3.2 成果

DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

在这里插入图片描述

4.DeepSeek-R1-Zero和DeepSeek-R1

接着就来到了重头戏,在2025年1月20日发布的DeepSeek-R1模型, 论文地址: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

他的发布,带来了世界的震撼,也让2025年初所有人都开始谈论.

4.1 技术分析

其实这个DeepSeek-R1先有一个DeepSeek-R1-Zero的版本,只通过强化学习(RL)进行训练,没有用监督微调 (SFT) 作为预备步骤,但是它遇到了诸如可读性差和语言混合等问题,接着引入了 DeepSeek-R1，它在 RL 之前结合了多阶段训练和冷启动数据.

DeepSeek-R1的技术主要有以下几点:

•采用GROP(Group Relative Policy Optimization)算法

•Reward Modeling :一种基于规则的奖励系统和语言一致性奖励系统

•Cold Start:使用数千条冷启动数据

4.1.1 GROP算法

LLM 中主流 RLHF 方向分为两大路线：

•以 [PPO] 为代表的 On Policy 路线 (但目前最常用的还是PPO)每次训练都基于自己的生成模型（Actor），通过教练（Critic）反馈奖励；优势是效率高，没有模型自生成自然效率高，问题是训练后模型能力可能不够；

•以 [DPO] 为代表的 Off Policy 路线基于现有标注的情况进行分析，存在训练样本可能与模型不匹配的问题；优势是更有可能达到模型能力的上限，问题是效率较低。

从PPO的优化过程分析，其存在如下缺点：1.需要训练一个与策略模型大小相当的价值模型(Value Model)，这带来了巨大的内存和计算负担； 2.LLM 通常只有最后一个 token 会被奖励模型打分，训练在每个 token 上都准确价值函数难；

而GROP避免了像 PPO 那样使用额外的 Value Model ，而是使用同一问题下多个采样输出的平均奖励作为基线,好处:

•无需额外的价值函数：GRPO 使用组内平均奖励作为基线，避免了训练额外的价值函数，从而减少了内存和计算负担。

•与奖励模型的比较性质对齐：GRPO 使用组内相对奖励计算优势函数，这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。

•KL惩罚在损失函数中：GRPO 直接将训练策略 πθ 和参考策略 πref 之间的 KL 散度添加到损失中，而不是像 PPO 那样在奖励中添加 KL 惩罚项，从而避免了复杂化 A^i,t 的计算。

![]()

4.1.2 Reward Modeling

为了训练DeepSeek-R1-Zero，采用了一种基于规则的奖励系统，该系统主要由两种类型的奖励组成：

•准确性奖励：准确性奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题中，模型需要以指定格式（例如，在框内）提供最终答案，从而实现基于规则的可靠正确性验证。类似地，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。

•格式奖励：强制模型将其思考过程置于 ‘<think>’ 和 ‘</think>’ 标签之间。

注意, ****DeepSeek-R1-Zero 时没有使用结果或过程神经奖励模型，因为发现神经奖励模型在大型强化学习过程中可能会遭受奖励黑客(reward hacking )，并且重新训练奖励模型需要额外的训练资源，这会使整个训练流程变得复杂。

在训练DeepSeek-R1阶段,为了解决DeepSeek-R1-Zero中存在的语言混合问题,在RL中中引入了语言一致性奖励(language consistency reward ) ，该奖励计算为CoT中目标语言词的比例.

最后，通过将推理任务的准确性和语言一致性奖励相加来形成最终奖励.

4.1.3 Cold Start

与 DeepSeek-R1-Zero 不同，为了解决 RL 训练从基础模型开始的早期不稳定冷启动阶段，对于 DeepSeek-R1，构建并收集少量长 CoT 数据。为了收集此类数据，用了几种方法：使用少量样本提示，以长 CoT 作为示例；直接提示模型生成带有反思和验证的详细答案；以可读格式收集 DeepSeek-R1-Zero 输出；以及通过人工标注者进行后处理来细化结果。

4.1.4 DeepSeek-R1训练的整体流程

首先对DeepSek-V3进行RL训练,并采用基于规则的奖励系统,产生DeepSeek-R1-Zero模型.通过提示指引DeepSeek-R1-Zero模型带有反思和验证的详细答案等Code Start数据,然后将收集到的数千条冷启动数据重新微调 DeepSeek-V3-Base 模型.接着执行类似 DeepSeek-R1-Zero 的面向推理的强化学习。在强化学习过程接近收敛时，我们通过对强化学习检查点进行拒绝采样，并结合来自 DeepSeek-V3 在写作、事实问答和自我认知等领域中的监督数据，创建新的 SFT 数据，然后再次重新训练 DeepSeek-V3-Base 模型,在使用新数据进行微调后，检查点会进行额外的强化学习过程.(ps:二次训练 DeepSeek-V3是因为这次使用的新数据是更加优质的CoT数据,使得训练完之后的模型推理性能再度提升,在这一步我真的感慨这种想法,就是一种艺术\~\~).经过这些步骤，获得了名为 DeepSeek-R1 的模型，其性能与 OpenAI-o1-1217 相当。

在这里插入图片描述

4.2 成果解读

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

![]()

通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

在这里插入图片描述

四.结语:从大模型引发的思考

我对大模型时代的看法,我觉得我们已经拉开了新的一幕,如果说第一幕是知识驱动模型,卷参数量,拼算力,那么DeepSeek-R1的出现带我进入第二幕-推理驱动. 在这一幕,让模型学会自我思考,自我推理更为重要.而且更优秀的算法来提高参数效率,降低训练成本也成为了关键所在.

最后,码字不易,喜欢这篇文章的,**请给作者点个赞****吧,做个小小鼓励\~\~**

五.参考文献

DeepSeek
DeepSeek中用到的Grouped-Query Attention技术是什么来头
10分钟速通DeepSeekV1\~V3核心技术点
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
Multi-Head Latent Attention (MLA) 详细介绍
一文通透DeepSeek V2——通俗理解多头潜在注意力MLA：改进MHA，从而压缩KV缓存，提高推理速度
[DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models]()
DeepSeekV3 Technical Report

DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者

一、引言：AI时代的挑战与DeepSeek的崛起

二、DeepSeek的发展历程

1.DeepSeek-V1

1.1 技术分析

1.2 成果解读

2.DeepSeek-V2

2.1 技术分析

2.1.1 MLA

2.1.2 DeepSeekMoE

2.2 成果解读

3.DeepSeek-V3

3.1 技术分析

3.1.1 auxiliary-loss-free strategy

3.1.2 MTP

传统的模型通常采用单Token预测目标，即每次将当前预测结果作为最新的一个输入，再次预测下一个。而MTP则扩展了这一目标，要求模型在每个时间同时预测多个未来的Token（例如2个、3个或更多）。

使用MTP, 一方面每次预测多个Token，可使训练信号更密集，提高数据利用效率和训练速度，另一方面也可以让模型在生成后续token的时候有一个全局性，从而生成更连贯和语义准确的文本.

3.2 成果

4.DeepSeek-R1-Zero和DeepSeek-R1

4.1 技术分析

4.1.1 GROP算法

4.1.2 Reward Modeling

4.1.3 Cold Start

4.1.4 DeepSeek-R1训练的整体流程

4.2 成果解读

四.结语:从大模型引发的思考

五.参考文献

京东云开发者

引用和评论

JDK从8升级到21的问题集

入选ICLR 2025，MIT/UC伯克利/哈佛/斯坦福等提出DRAKES算法，突破生物序列设计瓶颈

30分钟内输出结果，新加坡国立大学/MIT等基于SVM构建微生物污染检测模型

怎么判断自己下载的 trae 是国际版还是国内版？

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

FlowGram 简介：开源前端流程搭建引擎

在线教程丨媲美 o3-mini，开源代码推理模型 DeepCoder-14B-Preview 狂揽 3k stars