引言

模型正在从训练为主转换为推理为主的新范式,智能体正将互联网从信息网络重构为行动网络,我们正处在从人类使用互联网到 AI 代理使用互联网的转折点。这不是未来,而是此刻已经发生的颠覆。

3 月 22 日,在腾讯云架构师技术同盟举办的线下沙龙“DeepSeek 实战——驱动行业智变”中。CSDN 高级副总裁、全球机器学习技术大会主席 李建忠老师在其题为《DeepSeek 创新驱动的 AI 应用寒武纪》的演讲中,为我们系统阐述了 DeepSeek 在 AI 领域的突破性创新及其对整个产业生态的深远影响。他借用生物学中"寒武纪物种大爆发"的比喻,形象地描绘了 AI 应用即将迎来的空前繁荣时代。正如寒武纪时期地球上生物种类爆发性增长,以 DeepSeek 为代表的大模型技术创新正在催生全新的 AI 应用生态系统。本文将跟随李建忠老师的观点,全面解读 DeepSeek 模型的技术创新如何引领产业变革,并探讨这场技术革命的深远意义。

图片
CSDN 高级副总裁、全球机器学习技术大会主席 李建忠

一、DeepSeek的技术创新

大语言模型(LLM)自 ChatGPT 问世以来迅速发展,然而在 2023年 前,业界普遍认为大模型主要是以预训练为主的模仿学习,缺乏强大的推理能力。DeepSeek 团队的一系列技术突破正在改变这一现状,引领了从"训练为王"到"推理为王"的新时代。

推理范式的革命性转变

DeepSeek 最具革命性的创新在于其对强化学习在推理侧的全面应用和开源,这一突破与 OpenAI 的 o1 模型共同引领了大模型从"训练为王"到"推理为王"的范式转换。

这种转变实现了从"快思考"(系统1)到"慢思考"(系统2)的能力飞跃。借用诺贝尔经济学家丹尼尔. 卡尼曼提出的思考模式,李建忠老师指出:"系统1"是直觉的、无意识的快速反应,占人类日常思考的 95%;而"系统2"是逻辑性的、深度推理的思考过程,是科学发现和工程设计的基础。

图片
快思考与慢思考

在 2023 年 9 月底之前,市面上的大语言模型主要为快思考模式,缺乏深思熟虑的能力。OpenAI 的 o1 首先展示了强化学习在提升模型推理能力方面的潜力,顶级数学家陶哲轩评价 o1 已达到其带领数学博士生的水平。DeepSeek 于 2024 年 1 月底正式开源 R1 模型,时间点与 o1 接近,技术史上可视为几乎同步的突破。更为重要的是,DeepSeek 选择了完全开源其技术方案,在全球多个实验室得到了复现。

李建忠老师以通俗的方式解释了这一转变的意义:在强化学习出现之前,大模型主要依靠预训练学会了"讲知识",通过后训练学会"讲礼貌",强化学习通过奖励和惩罚机制,使模型真正具备了推理能力,学会了 "讲道理"。

模型架构创新

除了推理能力的革命性突破,DeepSeek 在模型架构上也实现了重要创新:

MLA(多头潜在注意力机制) 是 DeepSeek 在 2023 年 6 月 V2 论文中提出的原创技术,通过优化缓存减少了 93% 的查询 KV 量,显著提高了推理效率。

MOE(混合专家模型) 虽然专家网络的思想在学术界早已存在,但 DeepSeek 将专家网络数量推至 256 个,远超业界通常的 8-16 个水平。这种设计使得在实际任务中只需激活一小部分参数,例如在某个任务中,DeepSeek 总规模为 671B 参数,但只激活了 37B 参数,极大提升了效率。

图片
MOE与MLA

软硬协同的工程优化

凭借团队来自幻方的背景,DeepSeek 在系统工程和算法优化方面表现出色。他们实现了"压榨式"的算力优化,从跨节点通信到 CUDA 底层优化,在每个技术细节上都追求极致。

李建忠老师引用图灵奖得主 David Patterson 的观点:"硬件架构的创新往往诞生于软件需求对硬件的持续鞭策",认为 DeepSeek 的工程创新可能引领"软件定义硬件"的新范式,为中国突破国际算力垄断创造战略窗口期。

二、DeepSeek对AI生态的深远意义

DeepSeek 的技术创新不仅带来了模型能力的提升,更重要的是,它彻底改变了 AI 应用的成本结构。AI 应用普及的最大障碍之一一直是高昂的训练和推理成本,而 DeepSeek 通过一系列创新正在颠覆这一局面。

成本急剧下降引发应用爆发

DeepSeek 将大模型的训练成本降至 OpenAI 的约 1/20,更令人惊讶的是,它将推理输出成本降至与谷歌搜索相当甚至更低的水平:

服务类型成本对比
谷歌搜索约0.2美分/次基准参考
DeepSeek R1推理输出约0.2美分/次与搜索持平
DeepSeek对话输出约0.025美分/次搜索成本的1/8

这种成本结构的根本性变革具有历史性意义。李建忠老师将其比作 2011 年小米推出 1999 元安卓手机的情景——正是小米的低价策略,催生了微信、美团、滴滴等移动互联网应用的蓬勃发展。同理,DeepSeek 的低成本方案有望触发 AI 应用的"寒武纪式爆发",使 AI 技术真正走入千家万户。

对算力生态的重塑效应

DeepSeek 的推理范式转变对全球算力格局产生深远影响。在预训练领域,英伟达的优势遥遥领先,但在推理侧,其他厂商的差距大幅缩小。

随着强化学习推理范式的确立,推理市场将远超预训练市场,因为预训练会趋于收敛,未来可能只有少数几家厂商做自研模型。这一趋势已引起产业巨头的重视,英伟达 CEO 黄仁勋在近期 GTC 大会上明确提出"All in 推理"的新策略,表明推理市场的巨大潜力已获得普遍认可。

开源长期主义的战略性创新

与技术和成本创新同样重要的是 DeepSeek 的开源战略。DeepSeek 采用商业最友好的 MIT 协议,无下游应用限制,不仅开源模型权重,还开源了核心代码和技术方案,甚至允许模型蒸馏,为业界提供小模型方案。

从一开始,DeepSeek 就明确了"用长期主义来扩展开源语言模型"的理念。这种开源态度已在全球,特别是欧洲、东亚、中东等地区引发强烈关注,可能带来全球开源 AI 版图的重大变动。

三、AI产品的范式转换理论

理解 DeepSeek 创新的历史意义,需要将其放在更宏大的技术发展框架中考量。李建忠老师从历史和哲学角度探讨了技术演进规律,提出了理解 AI 创新的全新框架,帮助我们把握 AI 时代的产品机会。

技术演进的周期性加速

李建忠老师提出了一个技术发展的周期性框架,展示了人类科技史的加速趋势:
●  连接1.0时代(1837-1940年,约 100年):电报、电话、广播等将人类连接起来
●  计算1.0时代(1940-1990年,约50年):从大型机、小型机到 PC 的计算革命
●  连接2.0时代(1990-2020年,约25-30年):互联网和移动互联网再次连接世界
●  计算2.0时代(2020年至今):大模型开启 AI 时代的新计算革命

这一演进过程呈现明显的加速特征,周期不断缩短(100年→50年→30年→?)。按此推算,人工通用智能(AGI)可能在 2035-2040 年到来,与谷歌 AI 学家库兹韦尔预言的 2039 年相近。李建忠老师指出了一个重要认知差距——人类对变化的感知往往是线性的,而技术发展实际上是指数级的,这导致我们经常低估技术变革的速度和影响深度。

创新"立方体"模型

为了更好地理解 AI 创新机会,李建忠老师创造性地提出了三维"立方体"模型来表达他的思考:
●  X轴(技术轴):计算1.0、连接2.0、计算2.0等技术演进路径
●  Y轴(需求轴):信息、娱乐、搜索、社交、商业等人类核心需求
●  Z轴(模态轴):文字、图片、音频、视频、3D 等表现形式

技术史上的发展往往遵循特定模态路径:从文本开始(如博客),逐渐发展到图片(朋友圈)、音频(喜马拉雅)、视频(视频号);大模型发展也遵循类似路径,从文本模型逐渐向多模态扩展。

大模型的差异化颠覆力与内容创作民主化

基于这一立体模型,李建忠老师分析了大模型在不同领域的颠覆力差异。在生产力工具、搜索、信息等领域,大模型的颠覆力强且快速,因为大模型智商高,能有效解决问题、提高效率。相比之下,在电商、娱乐、社交等领域,大模型的颠覆力较弱且缓慢,因为大模型情商极低,无法提供情绪价值。他形象地总结:"大模型提供内酚酞(成就感),但不提供多巴胺(快感)"。

从哲学层面探究这一差异的根源,李建忠老师指出大模型的根本局限在于"不懂死亡"——正因为没有生死概念,大模型无法真正理解构成人类价值体系的爱恨情仇。这一观点解释了为何在各平台上的数字人体验普遍不佳,用户感受到的是"冰冷"而非情感连接。即使在智能高度发达的未来,人类的情感需求仍将是不可替代的。

与大模型的颠覆性影响同步发展的是内容创作门槛的持续降低。传统媒体时代只有主编才能发布内容,Web2.0 时代博客作者与读者比例约为 1:100,短视频时代如某短视频平台的创作者与用户比例已达到 3:8,而AI时代可能实现 1:1 的创作消费比例。李建忠老师提出了"提示词就是创作"的新口号,预示着创作与消费边界的最终消融。

四、AI智能体的爆发与应用新生态

DeepSeek 等模型在强化学习方面的突破为智能体(Agent)提供了关键能力,我们正进入 AI 智能体的爆发期。智能体不再是简单的对话工具,而是能够实际执行任务的行动主体,这将彻底改变互联网的基础架构。

智能体补足大模型的局限

DeepSeek 的强化学习突破为智能体提供了关键能力,补足了大模型在记忆、规划、工具调用和协作方面的不足。李建忠老师强调,正是因为推理能力的提升,智能体才能在 2024 年迎来真正的爆发。

从信息网络到行动网络

AI 发展历程可以概括为三个关键模式的演进:

●  检索模式(传统计算产业)专注于存取、查找、计算,所有互联网应用本质上都是这三件事的组合。
●  生成模式(大模型初期)拓展了学习、预测、创造的能力,扩展了计算机从数据处理到内容生成的边界。
●  行动模式(智能体时代)突出了推理、规划、执行的能力,如 Manus 等应用已展示的全新交互范式。

这一演进将带来从"对话交互"(被动的、独立的,用户一天只提出有限问题)到"伴随交互"(主动的、持续的,如自动安排会议、订机票等)的根本性转变。

智能体重构互联网生态

更为深远的是从"信息网络"到"行动网络"的转变。李建忠老师提出了从"信息网络"到"行动网络"的转变理论:

●  信息网络(传统互联网):人类查询信息→人类规划→人类行动→得到结果 
●  行动网络(智能体时代):人类表达需求→智能体规划→智能体行动→人类得到结果

这一转变将重构整个互联网生态,因为未来不仅是人类使用互联网服务,智能体本身也将成为各种服务的消费者。

搜索引擎将为智能体提供决策信息;广告系统需要适应智能体的需求;电商平台将面对智能体代替人类决策的新现象;智能体之间的信息交换将形成新型社交网络;智能体也需要了解世界新闻以做出更好决策。多智能体协作不仅发生在人与 AI 之间,还会发生在 AI 与 AI 之间,形成新型的"智能体社会"。

未来的产品设计将从面向人类需求转变为同时面向人类和智能体的需求,整个互联网逻辑和模式将在 AGI 时代被彻底重构。这不仅是技术层面的革新,更是整个产业形态和社会结构的深刻变革。

结语

DeepSeek 的技术创新,尤其是强化学习在推理方面的突破性应用,标志着 AI 从训练到推理的范式转变。其开源策略和成本优势正在引发整个 AI 应用生态的"寒武纪爆发",而这仅仅是 AI 革命的开端。随着技术周期加速演进,我们正在进入从信息网络到行动网络的历史性转折点,智能体将彻底重构互联网生态。

李建忠老师的立体框架为我们提供了理解这一转变的多维视角,而他对大模型局限性的哲学思考——"大模型不懂死亡"——则为我们理解 AI 与人类的关系提供了深刻洞见。在这场技术革命中,技术本身以前所未有的速度发展,但人类的情感价值与创造力将始终是不可替代的核心资产。面对这一前所未有的变革时代,我们需要既拥抱技术创新,又保持对人类价值的坚守,共同塑造 AI 时代的新形态。

腾讯云架构师技术沙龙

腾讯云架构师技术沙龙,是腾讯云面向广大架构师与资深开发者举办的技术交流活动,聚焦前沿话题,汇聚专家智慧,深度探讨,携手共创,用最专业的分享与思辨,助力广大架构师共同成长!


腾讯云开发者
21.9k 声望17.3k 粉丝