以下文章来源于李建忠研思 ,作者李建忠研思
[
李建忠研思 .
Boolan首席专家,技术未来主义者;研究技术本质,思考产业未来.
](#)
【引言】
杨立昆的说法:“DeepSeek 的胜利并非是中国AI战胜了美国 AI,而是开源模型战胜了专有模型”,而在我们看来,这当然是开源的胜利,但同时也是中国 AI 的胜利,同时承认两点,才是正确的态度。但是,从另一方面来说,将 DeepSeek 夸奖为国运级创新,可能还是有点过了。毕竟国运不能只靠一个产品或一个创新,而是要靠我们每一个人,持续不断的努力。
——庄表伟,开源社理事
DeepSeek 在春节期间引爆全球科技圈,虽然饶毅教授的观点“DeepSeek 是自鸦片战争以来中国给人类科技最大的震撼”确实有点夸张了,但在欧美科技圈热议的所谓“DeepSeek 时刻” 、国内盛赞的“国运级创新”所带来的震撼,从西方主流杂志或媒体包括《自然》、《纽约时报》、《经济学人》等的报道,以及在全球科学、技术、金融、政府、军事等领域的专家政要反应来看,DeepSeek 的出圈和影响力不容忽视。
DeepSeek 到底做了什么?所谓的“DeepSeek 时刻”或者“国运级创新”到底意味着什么?
个人认为 DeepSeek 巨大的影响力不仅仅在于它在 AI 领域实现的几个方面的关键技术创新,更重要的是由其引发的对全球AI生态版图的升级和重塑。本文将从两个大的维度:(一)DeepSeek 的关键技术创新;(二)DeepSeek 对于大模型的生态意义 来谈谈我对 DeepSeek 的创新研究和思考。
1. 开源强化学习引领推理计算范式转换
去年9月份 OpenAI 发布的 o1 模型展现了强化学习在推理计算方面的卓越能力,但是 OpenAI 既没有开源,技术报告也语焉不详,全球 AI 界虽然对大模型将迎来从预训练到推理计算的范式转换抱有很高期待,但一直没有成功的复现。直到 DeepSeek R1 的出现,无论是在以推理为主的各项国际公认的评测指标上、还是实际使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o 等一众前沿闭源模型。
DeepSeek 的推理计算路线也让很多业内专家叹为观止,其使用纯粹 RL(强化学习),无需 SFT(监督微调),不依赖冷启动数据,成功地实现了靠纯 RL(强化学习)来激励大模型的推理能力。DeepSeek 在 R1 的训练中也观察到了模型推理时“喃喃自语反思错误的 Aha Moment”(所谓大模型的“顿悟时刻”)。DeepSeek 的研究人员在其论文中谈到,这不仅是大模型的“Aha Moment”,也是研究团队的“Aha Moment”。
为什么说使用RL强化学习来做推理计算,为大模型带来了新的范式转换?人类智能的学习行为本质上分两种:模仿学习 和 探索学习。预训练就是大模型的模仿学习,在 OpenAI o1 和 DeepSeek R1 两个模型之前,大模型主要进行的是“预训练”为主的模仿学习。喂给大模型什么样的数据,大模型才能学会什么。没教的一概不会,非要回答就会幻觉说胡话。强化学习就是大模型的探索学习,这是在 OpenAI o1 和 DeepSeek R1 推理时主要的学习方式。在强化学习支持的推理计算下,大模型会不断探索优化、遇到错误会改正自己。不难理解,如果没有探索学习,仅仅基于预训练的模仿学习,大模型遇到复杂问题,很难超过人类专家。而有了探索学习,大模型才有可能发展出远超人类智能的水平,比如在 AlphaGo 当时大败围棋冠军李世石时著名的第37手(move 37),背后就是强化学习的功劳。
强化学习在 AI 领域并不新鲜,但将强化学习泛化地应用在大模型领域,成为大模型推理计算的核心,OpenAI O1 和 DeepSeek R1 属于开先河者。大模型领域也因此迎来了从预训练到推理计算的范式转换,而且因为开源的引领,相信 DeepSeek 有机会成为这一范式转换的领导者。
顺便提一句,DeepSeek 在工程领域也有很多可圈可点之处,比如从纯强化学习模型 R0,到使用 SFT、基于 V3 基座模型调教出来既有文采又懂推理、文理双全的 R1;再比如使用 R1作 为教师模型来蒸馏多个小模型,使得小模型也具备很高的推理能力。这些都会加速大模型向推理计算的范式转换。
2. MLA 和 MoE 等引领大模型架构创新
自 GPT 采用 Transformer 架构取得成功以来,经典 Transformer 架构一直是很多大模型的标配。但这不意味着 Transformer 是完美无缺的。DeepSeek 在 Transformer 架构的基础上也做了很多创新,主要包括两个方面:
(1)多头潜在注意力即 MLA
(2)混合专家模型即 MoE
MLA 用于高效推理,源自 DeepSeek V2 的原创,其显著降低了推理显存的消耗。MLA 主要通过改造注意力算子压缩 KV 缓存大小,将每个查询 KV 量减少93.3%,实现了在同样容量下存储更多 KV 缓存,极大提升了推理效率。
MoE 用于高效训练,其由多个专家模型组成,通过部分激活给定任务所需的特定专家,而不是激活整个神经网络,从而降低计算消耗。MoE 非 DeepSeek 原创,但DeepSeek早在V2之前的 代码和数学模型,就从稠密架构转向 MoE架构。V3模型中更是大胆地使用了高难度的256个路由专家和1个共享专家,并创新的采用冗余专家,来实现负载均衡策略和训练目标。
3. “贴身定制”的软硬协同工程优化
由于众所周知的“芯片限制”,DeepSeek 在探索推理范式和模型架构创新的同时,在工程优化方面也丝毫没有放松。分别从计算、存储、通信等多个层面实施了软硬协同的工程优化策略:比如混合精度训练、跨节点通信优化、双流水线机制、DualPipe算法等。甚至采用 PTX 代码(比 CUDA 更底层的汇编代码)进行底层优化,实现调整寄存器分配、线程调度、Warp 级别优化。
这种围绕模型需求,对硬件进行“贴身定制”的软硬协同工程优化,在一些手握充裕 GPU 卡资源的硅谷大厂技术人员眼里,很像一些“雕虫小技”。但我想说的是,技术界的雕虫小技不可小觑,技术领域的创新往往是从这些雕虫小技开始的。
回顾一下计算历史:Hadoop 如何倒逼 EMC、IBM 重构存储架构?ARM 精简指令集如何用低功耗设计颠覆英特尔 x86 帝国?TCP/IP 协议栈如何倒逼传统网络设备革命?记得图灵奖得主、RISC 指令发明人 David Patterson 曾经有言"硬件架构的创新往往诞生于软件需求对硬件的持续鞭策"。
如果假以时日, DeepSeek 成为开源大模型领域的标配后,很难说不会出现用“软件定义硬件”或者说“模型定义硬件”来倒逼硬件厂商,走出一条颠覆英伟达 CUDA 生态的道路。
1. 大模型成本降到和搜索相当,AI 应用和智能体迎来爆发
DeepSeek 无疑引爆了大模型的成本之战:(1)自身通过“模型架构创新”和“软硬件协同工程优化”将大模型训练成本大幅度降低,大约是 Meta 的1/10,OpenAI 的1/20 (2)通过最开放的 MIT 开源协议,和将推理大模型蒸馏给开源小模型等一系列工程方法,为业界带来低成本的端侧模型商品。
谷歌一次搜索成本大约0.2美分(0.002美元),DeepSeek R1 推理成本百万 token输出16元(2.2美元), V3 对话输出百万 token 2元(这只是 DeepSeek 官网对外的 API 价格,如果考虑实际发生的推理成本、会更低)。作为对比:OpenAI o1 百万 token 输出60美元,是 DeepSeek R1 的30倍。如果假设平均一次推理输出大约1000 token(相当于大约500个汉字)。那么 DeepSeek 一次推理输出价格大约2.2美元/1000次=0.2 美分,对话输出大约0.025美分。
也就是说,DeepSeek 将大模型的推理输出降到和谷歌一次搜索成本的价格相当,对话输出则大约是搜索的1/10。这是具有指标意义的时刻。
我记得2023年4月份在硅谷访问时和 Google 做搜索的朋友聊,他谈到他们内部从上到下对 ChatGPT 持相当观望的态度,因为如果按照当时大模型的成本,来对比谷歌的搜索成本,谷歌马上会从一个盈利600亿美金的公司,变成一个亏损上千亿美金的公司。虽然,大家都预期大模型的成本会不断降低,但没想到不到2年时间,降低如此之快。
成本一直是技术革命背后的利器。搜索作为互联网的基础设施,正是因为极低的成本,才能快速完成对全球信息的整合,引爆了互联网革命。而 DeepSeek 在2025年开年将大模型成本降到和搜索相当,加上性价比极高的端侧模型,大模型将很快成为各种应用的基座支撑,GenAI 也将迎来应用爆发的 tipping point。同时随着强化学习在推理计算带来的范式转换,依赖推理能力的智能体 AI Agent 也将迎来加速,2025年将是大模型应用和智能体爆发的元年。
2. AI铁三角迎来新的变量,AI 产业版图有望被重塑
算法、算力、数据一直是 AI 的铁三角。随着大模型成为 AI 科技树的主流,基于 Transformer 架构、以预训练为主的模型算法,及其展现的 Scaling Law 一直在向业界传达一个信息:算力决定一切,训练数据越多、算力越大,模型性能就会越来越好,所谓“大力出奇迹“。AI 产业的竞争也变成了“谁拥有 GPU 越多、谁的 AI 能力越强”的军备竞赛。
但 DeepSeek 分别从 “后训练”和“预训练”两个阶段对这样的唯算力论提出了响亮的质疑:(1)后训练阶段——开源强化学习加速推理计算的范式转换:随着强化学习成为后训练阶段的标配,推理计算将占比越来越大(相对预训练计算)。适应预训练模式的 GPU 大卡集群计算(英伟达的优势)将不再是未来 AI 算力需求的主流,而英伟达在推理计算方面的优势相对较弱,很多头部厂商如谷歌 TPU、AWS Inferentia、华为昇腾等专为推理优化的芯片,在特定负载下能效比显著高于通用GPU,加上适应多元推理场景的分布式计算、边缘计算、端侧计算,推理算力领域将不会是英伟达一家独大的局面。(2)预训练阶段——通过 MoE 和 MLA 等对经典 Transformer 架构进行的改进和迭代:这使得 DeepSeek 使用少于同行10~20倍的算力,完成了同等规模的预训练。另外,DeepSeek 使用 R1 作为教师模型来实现对小模型的“强化学习推理能力”蒸馏的工程实践,也会为很多模型训练带来一波红利。
DeepSeek 从 “后训练”和“预训练”两阶段对 AI 算法进行的创新,为“算法、算力、数据”构建的 AI 铁三角带来新的变量,有机会重新塑造未来AI产业的发展版图。
3. 开源的长期主义是创新摇篮
最后,说说 DeepSeek 的开源战略。DeepSeek 支持商业友好的 MIT 许可证(最为宽松的开源协议之一),开源模型权重,没有对下游应用的限制(比如合成数据、蒸馏等)。论文开放的技术细节也很有诚意。在全球排名 Top 10 的头部模型中,DeepSeek 是开源程度最高的,比最早扛起开源大旗的 Meta 的 LLaMA 还要更Open。这也是 DeepSeek V3 和 R1 在海内外引起众多权威专家、大佬认可+尊重、甚至赞不绝口的原因。不隐藏、不吹嘘,模型、评测、原理等都结结实实摆在那里。
顺便说一句, DeepSeek 的论文从一开始就大大方方地承认了其在微观设计上遵循了 LLaMA 的设计。相对国内各种扭扭捏捏、遮遮掩掩的“半开源”,以及违背开源协议、使用开源实现自己的闭源,DeepSeek 在模型开源方面可以说相当慷慨、也很敞亮。
DeepSeek 实际上在第一天就拥抱开源,回想起早期阅读《DeepSeek LLM : 用长期主义来扩展开源语言模型》 这篇 DeepSeek 于2024 年1月发表的论文,对开源的信仰和宣言,读起来让人心生敬意。深层次来看,DeepSeek 是真正深刻领悟开源精神、站在全人类创新的高度、从战略而非战术上拥抱开源的。
摘抄 DeepSeek 创始人梁文锋 2024年7月份接受采访中的一段话“我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式是不可持续的。我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。开源和发表论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。开源不仅仅是商业策略,更是一种文化。”以此观之,2025年1月,DeepSeek V3 和 R1 给全球 AI 界带来的震撼,不足为奇。
DeepSeek 的成功点亮了中国技术界最纯粹、最原始的创新火种, 他们会激励一代又一代的中国技术人为全世界做出自己独特的创新。致敬 DeepSeek。
转载自 | 李建忠研思
编辑 | 王军
相关阅读 | Related Reading
【灵蛇献瑞】| 2024 中国开源年度报告正式发布!
开源社简介
开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。
自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。