作者:京东科技 蔡欣彤
一、引言:AI时代的挑战与DeepSeek的崛起
在大模型时代,AI技术的飞速发展带来了前所未有的机遇,但也伴随着巨大的挑战。随着模型规模的不断扩大,算力需求呈指数级增长,训练成本飙升,而性能提升的边际收益却逐渐递减,形成了所谓的“Scaling Law”瓶颈。与此同时,OpenAI、谷歌等巨头通过闭源策略垄断技术,限制了中小企业和研究机构的参与空间。在这样的背景下,DeepSeek应运而生,以“低成本+高性能+开源”为核心理念,致力于打破行业壁垒,为AI普惠化开辟了新的可能性。
但每一个大模型爆火的背后都是需要经历一代代的技术积累和演进,所以文本介绍一下 DeepSeek 系列主要模型的发布历史及每一代模型的技术突破。
二、DeepSeek的发展历程
1.DeepSeek-V1
DeepSeek V1是2024年1月份发布的第一版DeepSeek模型,论文地址: https://github.com/deepseek-ai/deepseek-LLM
DeepSeek-V1 有 7B 和 67B 两个版本,并且每个版本分别有基础和聊天的模型,它支持多种编程语言,具有强大的编码能力,适合程序开发人员和技术研究人员使用。
1.1 技术分析
•数据层面:通过包括去重、过滤、混合3个步骤构建一个多样性强、纯净的高质量预训练数据
•模型结构方面: 模型的主体结构基本沿用LLaMA的体系结构, 在注意力机制方面, 7B模型使用 多头注意力Multi-Head attention (MHA),而67B模型使用Grouped-Query Attention (GQA)替代MHA用来降低成本
1.2 成果解读
第一代的模型在我看来更多的还是复现LLaMA,虽然采用了更优质的训练集提升了性能,但就像DeepSeek论文中提到,也存在潜在缺点:过渡依赖培训数据容易产生偏见;幻觉问题没有处理很好;在其生成的响应中表现出重复回答等问题.
2.DeepSeek-V2
2024年5月左右发布了DeepSeek-V2,论文地址: https://github.com/deepseek-ai/DeepSeek-V2 .
这个版本的发布也让deepSeek正式引起了大模型领域的关注.
2.1 技术分析
DeepSeek V2最核心的点都在改动模型结构上.分别为 多头潜在注意力机制(Multi-head Latent Attention,MLA) 和 DeepSeekMoE架构, 这两点也为后面的R1版本奠定了基础.
整体结构如下图:在注意力机制部分采用MLA,在前馈网络(FFN)部分采用DeepSeekMoE的结构.
2.1.1 MLA
在标准的 Transformer 模型中,多头注意力机制(MHA)通过并行计算多个注意力头来捕捉输入序列中的不同特征,每个注意力头都有自己的Q,K,V. 这样在处理长序列时,键值缓存(KV Cache)的内存开销会随着序列长度线性增长,这成为大模型推理效率的主要瓶颈之一.
MLA利用低秩键值联合压缩来消除推理时间键值缓存的瓶颈,从而支持有效的推理.MLA的具体实现包括以下关键技术:
•低秩键值联合压缩(low-rank key-value joint compression):MLA通过将键和值矩阵压缩到低维空间,减少了KV Cache的内存占用。
•多头潜在注意力:MLA在传统多头注意力的基础上,引入了潜在注意力机制,通过动态调整注意力头的计算方式,进一步优化了长序列处理的效率。
•稀疏注意力:MLA通过稀疏化注意力权重,减少了计算复杂度,同时保持了模型的性能。
2.1.2 DeepSeekMoE
DeepSeekMoE对比传统的混合专家模型(Mixture of Experts, MoE),多了2个核心优化:
•细粒度专家划分:如图(b)Fine-grained Expert,DeepSeekMoE 将专家数量大幅增加,每个专家负责更小的输入空间。这种细粒度划分使专家能够更专注于特定任务,从而提高模型的表达能力和泛化性能
•共享专家隔离:如图(c)Shared Expert DeepSeekMoE 引入共享专家机制,用于捕获跨任务的通用知识. 这样的设计减少了路由专家之间的冗余,提高了参数效率,还改善了负载均衡问题,避免了某些专家被过度激活的情况.(简单点来说,就是共享专家干通用的活,其他专家干自己更专业的活)
此外,DeepSeekMoE还做了负载均衡策略,
•负载均衡策略:论文中为Load Balance Consideration
◦Expert-Level Balance Loss:创新性地避免了传统负载均衡方法对模型性能的负面影响,通过灵活的批量负载均衡策略,允许专家在不同领域中更好地专业化
◦Device-Level Balance Loss:在分布式训练和推理中,DeepSeekMoE 通过设备受限的路由机制,将专家分配到不同的设备上,并限制每个设备只能访问本地专家。这减少了跨设备通信的开销,显著提升了训练和推理效率
2.2 成果解读
高效的性能与低成本:通过上面的结构优化,降低了计算开销,训练成本的降低大幅降低了开发门槛,适合科研和商业化应用
3.DeepSeek-V3
DeepSeek-V3 是在2024年12月26正式发布. 论文地址: DeepSeekV3 Technical Report
DeepSeek-V3是该系列中的一个里程碑版本,专注于知识类任务和数学推理,性能大幅度提升,这个版本的发布也让DeepSeek走进了大众视野.
整体来说,V3版本继续沿用了V2版本的MLA和DeepSeekMoE结构,总使用了671B参数,完成整个训练时间也减少很多.
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.
3.1 技术分析
DeepSeekV3在模型结构上的核心优化有两点:
1.对DeepSeekMoE中的多专家负载均衡问题,提出了无辅助损失负载均衡策略( auxiliary-loss-free strategy ) ,相比使用辅助loss提升了模型性能;
2.引入多Token预测(Multi-Token Prediction,MTP)技术,相比原来每次只能预测一个token,显著提升了infer的速度。
3.1.1 auxiliary-loss-free strategy
无辅助损失策略旨在解决传统 MoE 模型中因负载不均衡导致的计算效率下降和性能损失问题.
传统的 MoE 模型中,专家负载不均衡是一个常见问题。某些专家可能会被过度激活,而其他专家则处于闲置状态,这不仅降低了计算效率,还可能导致路由崩溃(routing collapse),从而影响模型性能.为了解决这一问题,传统方法通常依赖于辅助损失(Auxiliary Loss),通过额外的损失函数来强制均衡专家的负载。然而,辅助损失可能会对模型性能产生负面影响,尤其是在损失权重设置不当的情况下.
而无辅助损失负载均衡策略则是通过动态调整专家路由的偏差项(bias term)来实现负载均衡,而无需引入额外的辅助损失函数.具体来说:
• ****偏差项调整:在训练过程中,系统会监控每个专家的负载情况。如果某个专家过载,则减少其偏差项;如果某个专家欠载,则增加其偏差项。这种动态调整确保了专家负载的均衡,同时避免了辅助损失对模型性能的干扰
• 路由机制:在计算专家亲和度分数(affinity score)时,偏差项被添加到亲和度分数中,以确定每个 token 应该路由到哪些专家。门控值(gating value)仍然基于原始的亲和度分数计算,从而保持了模型的路由灵活性
采用这种方法,无需引入额外的损失函数,从而在保持模型性能的同时提高了训练稳定性
3.1.2 MTP
传统的模型通常采用单Token预测目标,即每次将当前预测结果作为最新的一个输入,再次预测下一个。而MTP则扩展了这一目标,要求模型在每个时间同时预测多个未来的Token(例如2个、3个或更多)。
使用MTP, 一方面每次预测多个Token,可使训练信号更密集,提高数据利用效率和训练速度,另一方面也可以让模型在生成后续token的时候有一个全局性,从而生成更连贯和语义准确的文本.
大致做法:模型除了有一个主模型,还有几个并行的MTP模块.这些MTP模块的Embedding层和Output Head和主模型共享.在主模型预测了next token后,将这个预测token的表征和之前token的Embedding拼接到一起,生成一个新的输入(超出长度的更久远的token被才减掉)。这个拼接好的Embedding输入到第一个MTP中预测next next token。以此类推..
文中引入Multi-Token Prediction主要为了提升训练效果,推理阶段可以直接去掉这些MTP模块,主模型可以独立运行,确保模型的正常工作.
3.2 成果
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
4.DeepSeek-R1-Zero和DeepSeek-R1
接着就来到了重头戏,在2025年1月20日发布的DeepSeek-R1模型, 论文地址: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
他的发布,带来了世界的震撼,也让2025年初所有人都开始谈论.
4.1 技术分析
其实这个DeepSeek-R1先有一个DeepSeek-R1-Zero的版本,只通过强化学习(RL)进行训练,没有用监督微调 (SFT) 作为预备步骤,但是它遇到了诸如可读性差和语言混合等问题,接着引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练和冷启动数据.
DeepSeek-R1的技术主要有以下几点:
•采用GROP(Group Relative Policy Optimization)算法
•Reward Modeling :一种基于规则的奖励系统和语言一致性奖励系统
•Cold Start:使用数千条冷启动数据
4.1.1 GROP算法
LLM 中主流 RLHF 方向分为两大路线:
•以 [PPO] 为代表的 On Policy 路线 (但目前最常用的还是PPO)每次训练都基于自己的生成模型(Actor),通过教练(Critic)反馈奖励;优势是效率高,没有模型自生成自然效率高,问题是训练后模型能力可能不够;
•以 [DPO] 为代表的 Off Policy 路线 基于现有标注的情况进行分析,存在训练样本可能与模型不匹配的问题;优势是更有可能达到模型能力的上限,问题是效率较低。
从PPO的优化过程分析,其存在如下缺点:1.需要训练一个与策略模型大小相当的价值模型(Value Model),这带来了巨大的内存和计算负担; 2.LLM 通常只有最后一个 token 会被奖励模型打分,训练在每个 token 上都准确价值函数难;
而GROP避免了像 PPO 那样使用额外的 Value Model ,而是使用同一问题下多个采样输出的平均奖励作为基线,好处:
•无需额外的价值函数:GRPO 使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担。
•与奖励模型的比较性质对齐:GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。
•KL惩罚在损失函数中:GRPO 直接将训练策略 πθ 和参考策略 πref 之间的 KL 散度添加到损失中,而不是像 PPO 那样在奖励中添加 KL 惩罚项,从而避免了复杂化 A^i,t 的计算。
![]()
4.1.2 Reward Modeling
为了训练DeepSeek-R1-Zero,采用了一种基于规则的奖励系统,该系统主要由两种类型的奖励组成:
•准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中,模型需要以指定格式(例如,在框内)提供最终答案,从而实现基于规则的可靠正确性验证。类似地,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
•格式奖励:强制模型将其思考过程置于 ‘<think>’ 和 ‘</think>’ 标签之间。
注意, ****DeepSeek-R1-Zero 时没有使用结果或过程神经奖励模型,因为发现神经奖励模型在大型强化学习过程中可能会遭受奖励黑客(reward hacking ),并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得复杂。
在训练DeepSeek-R1阶段,为了解决DeepSeek-R1-Zero中存在的语言混合问题,在RL中中引入了语言一致性奖励(language consistency reward ) ,该奖励计算为CoT中目标语言词的比例.
最后,通过将推理任务的准确性和语言一致性奖励相加来形成最终奖励.
4.1.3 Cold Start
与 DeepSeek-R1-Zero 不同,为了解决 RL 训练从基础模型开始的早期不稳定冷启动阶段,对于 DeepSeek-R1,构建并收集少量长 CoT 数据。为了收集此类数据,用了几种方法:使用少量样本提示,以长 CoT 作为示例;直接提示模型生成带有反思和验证的详细答案;以可读格式收集 DeepSeek-R1-Zero 输出;以及通过人工标注者进行后处理来细化结果。
4.1.4 DeepSeek-R1训练的整体流程
首先对DeepSek-V3进行RL训练,并采用基于规则的奖励系统,产生DeepSeek-R1-Zero模型.通过提示指引DeepSeek-R1-Zero模型带有反思和验证的详细答案等Code Start数据,然后将收集到的数千条冷启动数据重新微调 DeepSeek-V3-Base 模型.接着执行类似 DeepSeek-R1-Zero 的面向推理的强化学习。在强化学习过程接近收敛时,我们通过对强化学习检查点进行拒绝采样,并结合来自 DeepSeek-V3 在写作、事实问答和自我认知等领域中的监督数据,创建新的 SFT 数据,然后再次重新训练 DeepSeek-V3-Base 模型,在使用新数据进行微调后,检查点会进行额外的强化学习过程.(ps:二次训练 DeepSeek-V3是因为这次使用的新数据是更加优质的CoT数据,使得训练完之后的模型推理性能再度提升,在这一步我真的感慨这种想法,就是一种艺术\~\~).经过这些步骤,获得了名为 DeepSeek-R1 的模型,其性能与 OpenAI-o1-1217 相当。
4.2 成果解读
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
![]()
通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
四.结语:从大模型引发的思考
我对大模型时代的看法,我觉得我们已经拉开了新的一幕,如果说第一幕是知识驱动模型,卷参数量,拼算力,那么DeepSeek-R1的出现带我进入第二幕-推理驱动. 在这一幕,让模型学会自我思考,自我推理更为重要.而且更优秀的算法来提高参数效率,降低训练成本也成为了关键所在.
最后,码字不易,喜欢这篇文章的,**请给作者点个赞****吧,做个小小鼓励\~\~**
五.参考文献
- DeepSeek
- DeepSeek中用到的Grouped-Query Attention技术是什么来头
- 10分钟速通DeepSeekV1\~V3核心技术点
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Multi-Head Latent Attention (MLA) 详细介绍
- 一文通透DeepSeek V2——通俗理解多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度
- [DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models]()
- DeepSeekV3 Technical Report
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。