头图

背景

24年9月12日,OpenAI发布了o1模型,说是针对复杂推理问题的全新大模型,能够进行深度思考,在编程、数学、物理、化学、逻辑等方面的问题上有显著提升,妥妥的地表最强,而且领先不少。
2024 IOI信息学奥赛题目中,o1的微调版本达到人类选手中前49%的成绩。
而且经过一万次的提交,成绩就能获得金牌。
在这里插入图片描述
看起来的确很强,但是OpenAI并未公开他们是怎么做到的,而且主要开放给高级用户使用,当时还有次数限制(目前普通用户也能使用推理,次数也没限制,但不是o1模型),大家用起来也的确觉得强,但是也明显感觉到好慢,给出答案前要等很久。

其实如果只是从模型的性能上来看(大模型所谓的性能实际就是表现,应该是performance在最开始翻译的时候的选择了性能这种翻译,我个人觉得表现可能更贴切一些),其实DeepSeek-R1(下称R1)模型和OpenAI-o1(下称o1)模型算是打的有来有回,数学方面R1占优,而代码方面o1更强。所以业界对于R1的性能主流观点还是比肩o1,并不是超越。那么为什么这是R1会这么火?到底有哪些突破?

DeepSeek团队的突破

1. DeepSeek团队独立发现了能让模型变强的原因

这个变强的原因就是输出的思考过程,这相当于让模型内置了CoT(思维链)技巧,每次输出前先进行一段深度思考,把能想到的各种情况分析分析,然后再基于这些分析进行输出。准确率一下就有了大幅的提升。
在这里插入图片描述

这实际就是被OpenAI在o1模型上隐藏起来的东西,目前OpenAI也把推理过程开放出来了,DeepSeek拿出R1之后OpenAI发现藏着没用了,被发现了。这时候大家恍然大悟,怪不得以前用推理那么慢,原来是隐藏了推理过程,只展示了结果。这一下给所有的模型厂商都指明了方向:内置CoT。
在这里插入图片描述
这可以说已经被OpenAI的员工认证了。
image.png

2. DeepSeek团队发现了一条成本更低的方式

传统的大模型属于力大转飞型的模型,通过堆更多的算力,更大的参数,更多的数据。而DeepSeek团队采用了一套多轮训练的方法,特别是纯使用强化学习策略,仅通过奖励机制驱动模型自我进化。
image.png
DeepSeek团队的发现规避了一个已经挡在大模型发展路径上的墙:数据的瓶颈。传统大模型想要再进步提升就必须要有更多的数据,但实际上,现在各个大模型都已经把当前的数据都用完了,没有新的数据了,这里的数据指的是高质量的人工编写的带有人类语言语义的非结构化的内容,而不是硬件产生的结构化的数据,比如信号之类的。
R1的出现给大家了一条新的道路,原来不需要更多的数据,我们只要更好的奖励函数,就能通过强化学习让大模型进化的更好。

R1模型的突破

1. 性能好,比肩O1

没啥说的,牛x就完了
image.png

2. 开源,开源,还xx是开源

直接打破了OpenAI在这种高端模型上的技术优越性,不但自己能做出来,还开源出来让其他厂商也能做出来,而且训练成本还比较低,现在API的成本也比OpenAI低不少,再加上OpenAI的不Open,挑战OpenAI对于大模性的领导地位已经是正在发生的事情。

一些澄清

虽然看着DeepSeek团队和R1模型各自牛x,但有些内容还是需要澄清一下,让大家有更全面的了解。

只有不到600W刀的训练成本

首先这个数据是DeepSeek-V3模型的训练成本,并不是R1的,目前还没有R1的直接成本出来,不过肯定还是比o1模型要低不少。而且600W的成本只是一次训练的成本,并不包括之前研究、探索各种路径、反复实验的成本,因此如果是跟随Deepseek的路线是的确可以降低成本,但如果想进一步创新,成本依然高昂。可以说是Deepseek众多尝试中发现了成功的一次,这也是Deepseek在没有资金压力的背景下才能诞生的。创新还是需要大量资金支持的,如果DeepSeek团队手里只有这600W,那结果肯定会不一样。
在这里插入图片描述

显卡式微

R1只证明了可以相对低成本的达到o1的性能,虽然R1走的纯强化学习路线对于存量知识的依赖并没有那么严重,但堆更多的算力训练出更强大的模型理论上是可行的,而且堆算力对于强化学习也有帮助,因此显卡集群依然是大模型竞争中非常重要的基础设施。
这里不得不提到一个经典的悖论《杰文斯悖论:当科技史上某一个东西呈现出一个极致通缩状态的时候,大家对它的用量反而不会减少,反而会增多。》典型的例子就是芯片或者其他可能用于计算的东西,在降本降价之后反而还更普及了,计算机从大型机变成了小型机、PC、再变成笔记本、手机,走进千家万户,芯片的价格越来越低,需求量却越来越大。相信随着大模型的发展,显卡也会走上这条道路。

低配部署R1

目前低配部署R1只有两种方式:
1,部署蒸馏版本,真正是DeepSeek-R1的模型只有一个671B,即使是量化后,也需要几百G的显存才能加载,需要8张A100(80G)。网上发布的70B,32B这些小参数量的R1模型都是基于qwen或者llama作为基础模型蒸馏出来的,并不是真正的R1模型。
2,使用Ktransformer框架进行部署,R1是一个MoE架构的大模型,Ktransformer框架可以使用很小的显存(15G以内)+大量的内存(几百G以上)部署671B的模型,但回答效率非常慢,每秒几个字,作为对比,大家平常在网页上使用的这些大模型工具每秒基本都会有30字以上。

也有缺点

R1也并不是一个全面媲美o1的模型,虽然在各个维度的生成评测中与o1竞争激烈,但还是有一个方面要明显欠缺一些:幻觉严重。
R1模型的幻觉3倍高于自己家的V3,4倍高于o1、Claude-3.5这类模型。
幻觉会直接影响对大模型结果的可信度,对于任何大模型来说都是影响比较大的,只不过现在大家都还在上头阶段,被有意无意的忽略了。
这里提醒使用R1来做工程化开发的团队,关注模型的幻觉问题。
image.png

趋势

最后聊聊这波R1潮后续的发展趋势
1,强化学习一定会在大模型的训练中大放异彩,也很可能是带来高幻觉的源头,需要重点关注
2,各种推理模型中, R1的蒸馏模型会成为使用的主流
3,推理模型由于会输出思考过程会导致此类模型实际不太适合嵌入工程化生产过程中,而通过推理模型蒸馏出更好的非推理领域模型参与工程化生产是较好的选择
4,此波浪潮获益最大的可能反而是Qwen,Qwen模型本身底子好,能力足够,用来做蒸馏的基础模型是再合适不过了


建安七子
34 声望0 粉丝