以下文章来源于Snowolf ,作者Snowolf
[
Snowolf .
这是我写给自己的随笔,如果也能对你起到一定的帮助,将是我莫大的荣耀 :)
](#)
“ DeepSeek-R1模型算法的横空出世,心慌的不只是奥特曼,还有皮衣黄和华尔街的精英们。”
DeepSeek撼动了人工智能基本范式的三个根基。
01
—
人工智能的基本范式
用简单的语言来讲,人工智能产品离不开算法、算力和数据,以及其他要素:
人工智能 = (算法 × 算力 × 数据) × 协同系数 × 其他因子
其中,协同系数由技术整合能力、工程化水平等决定,其他因子包括人才、应用场景、伦理约束等。
算力、算法和数据称为人工智能的三要素,同时三者之间也相互影响。
算力,是执行算法所需的计算资源,包括CPU、GPU、TPU、NPU等硬件资源。强大的算力使得复杂的算法能够快速运行,处理大规模数据集,这对于训练深度学习模型尤为重要。当前主流算力的代表就是显卡——英伟达Nvidia的显卡。因此,英伟达的股价一路飙升。
算法,算法是一系列用于处理数据、解决特定问题的指令。在人工智能领域,算法的代名词是机器学习和深度学习。算法作为人工智能产品的核心,决定了产品的竞争力。DeepSeek、OpenAI等等大模型竞争最核心的部分就是算法之争。
数据,是算法学习和预测的基础。数据,尤其是海量高质量数据往往是训练有效模型的关键。高质量的算法通常需要高质量的大数据做支撑,同时依赖更强的算力。
算力、算法、数据三者相互依赖又相互影响。DeepSeek的横空出世,对OpenAI和Nvidia强强联合的AI世界发出了新的挑战。
02
—
算力:突破禁锢
在算力领域,Nvidia英伟达代表的N卡无疑是算力的代名词,其他厂商的显卡似乎只能拿来打打游戏。尤其是皮衣黄教主经营的CUDA生态,成为了英伟达产品坚不可摧的护城河。
在显卡销售禁令的前提下,DeepSeek并未获得性能卓越的RTX4090,而是使用了成本更低的H100芯片显卡(大约五万块)。这意味着,算法模型训练不再强依赖于强劲的算力,而是聚焦于如何降低时间复杂度的算法优化上。
当DeepSeek公开表示核心代码使用底层PTX编程,而非使用更为有好的CUDA编程时,英伟达皮衣老黄不淡定了。
CUDA 是 NVIDIA 开发的并行计算平台和编程模型,PTX 是 CUDA 程序编译后生成的中间表示代码,通常用于 GPU 代码的优化和执行。学过编程的小伙伴都知道C语言和汇编语言的关系,CUDA好比易于理解的C语言,更接近人类世界的语言,但想要让机器理解,还是要转换为PTX;而PTX是更贴近机器可以理解的汇编语言,因而执行效率更高,但也正因为语言风格更接近于机器语言,所以能直接使用PTX编程的人少之又少,想要把它做到极致就难上加难。CUDA 生态包括高级 API 和丰富的工具链,庞大的库和框架支持,而这些在其他显卡生态上都还不够完善。全球AI算力市场NVIDIA GPU占比仍超85%(IDC数据)。
也正因如此,多年来撼动CUDA护城河的人大有人在,但得逞的却一个都没有。当然,CUDA不可能永远一家独大,DeepSeek使用PTX也不是业内第一人。但在未来硬件发展领域,AI芯片很可能走向“去CUDA化”。
02
—
算法:打破神话
OpenAI引领全球AI时代的神话,在这一刻被改写了。
DeepSeek-V3算法的训练成本约为558万美元,不及OpenAIGPT-4o模型的1/10,但其性能却已接近。DeepSeek-R1算法的出现,标志着AI算法领域的一次重大突破。
与OpenAI相比,DeepSeek-R1在以下几个方面展现出显著优势:
- 更高效的模型训练: DeepSeek-R1采用了创新的算法架构和训练策略,能够在更短的时间内完成模型训练,并达到与OpenAI相当甚至更优的性能水平。这意味着更低的训练成本和更快的迭代速度,为AI应用的快速落地提供了可能。
- 更强的泛化能力: DeepSeek-R1在算法设计中融入了对数据分布和任务特性的深入理解,使其能够更好地适应不同的应用场景和数据分布,展现出更强的泛化能力。这意味着DeepSeek-R1在实际应用中能够更稳定、更可靠地完成任务。
DeepSeek-R1的出现,就像一记重拳,打得OpenAI措手不及。 DeepSeek在稀疏化训练和多任务统一架构上有显著进展,例如通过动态参数激活技术(类似MoE)提升模型效率,相同算力下训练速度比GPT-4快40%。
为了应对挑战,OpenAI不得不仓促应战,加速技术迭代,甚至开始考虑开源部分模型。开源社区发现,GPT-4已采用类似DeepSeek的混合专家系统(MoE)架构,双方技术路线趋同。OpenAI通过强化学习+人类反馈(RLHF)的工程化优势保持体验领先。
DeepSeek实现追赶性创新,虽尚未动摇OpenAI的体系化技术壁垒。然而,DeepSeek已经占据了先机,并在技术、成本和生态上建立了难以撼动的优势。
03
—
数据:另辟蹊径
DeepSeek提出的合成数据质量量化评估框架,为AI领域提供了一种新的思路:在小参数级模型上,通过有限的数据生成大量高质量的有效数据。
DeepSeek通过强化学习动态调整数据生成策略,显著提升了合成数据的逻辑一致性(据其2023年论文,提升了35%)。这种方法的核心在于优化数据生成过程,使得即使在小参数模型和有限数据的情况下,也能生成足够多的高质量数据——以往依靠占据高质量大数据抢占算法顶峰的时代结束了。
最近另一个爆炸新闻来自李飞飞团队的S1模型,成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型。李飞飞团队的S1模型(基于s1K数据集和蒸馏法)与DeepSeek的思路在核心理念上存在相似性。团队以阿里通义团队的Qwen2.5- 32B-Instruct作为基础模型,仅仅构建了1000个样本的数据集,通过蒸馏谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking实验版,最终得到了s1模型。
DeepSeek侧重于合成数据生成,通过强化学习动态调整数据生成策略。李飞飞团队则侧重于数据筛选和蒸馏,通过精心设计的小数据集(s1K)和从大模型(如Gemini 2.0)中蒸馏知识来训练小模型。
虽然两者方法不同,但DeepSeek的思路(通过优化数据生成提升小参数模型性能)可能对李飞飞团队的研究有一定启发。尤其是在数据效率和小参数模型优化方面,两者的理念是相通的。
04
—
总结
DeepSeek以一己之力捅破了AI世界的天:
算力领域,海量、高性能的英伟达显卡不再是唯一选择;
算法领域,开源且十分之一的成本足以撼动闭源的AI世界老大;
数据领域,使用小参数级模型和有限样本数据集也一样能获得有效模型。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。