以下文章来源于卫sir说 ,作者卫剑钒
[
卫sir说 .
说人话。
](#)
deekseek 之前,我有一些不太明白的地方,deepseek 一出,很多东西想明白了。
尤其是,大模型的推理到底是什么回事,以及大模型是否能做到人类那样思考。
很早以前,我读博,在计算机系,读博一的时候,同学搞了一次还比较正式的辩论赛,辩论机器以后能不能超越人类。
同学们分为两派,纷纷上台发表演说,我当时支持反方观点;机器不可能把人灭了,毕竟程序是人写的啊。
当时有个同学的理论是:冯诺依曼架构的机器,不可能超越人的智能,当时一听,觉得挺新鲜,居然扯到冯诺伊曼了。
但我没有深究,我想他的意思是,只有新型的、可以并行计算的、具有大量类似神经元结构的机器,才能有类似于人的智能,也就是说,要想超越人,硬件必须得改。
快毕业的时候,我突然想明白了,只要软件能模拟神经元活动就可以了,何必非要改硬件呢。
把一个神经元当作一个对象,不就得了,然后面向对象编程呗!
为什么讲这个故事呢?
一是:大模型确实做到了我的猜想,用软件实现了神经元,而且比我想的要简单的多。
二是:延伸开来,很多事情,低层可能不方便做,但不代表这架构不行,因为上层可以做啊。
AI 大佬 LeCun 总是说,生成式大模型架构不行,因为它就是个系统1(快思考),只能下意识吐词,它做不到系统2(慢思考)。
但是,现在看来,低层做不到的事,不代表上层就做不出来。
如果冯诺伊曼计算机是 layer0,Transfomer 大模型是 layer1,这之上的推理和思考,就是 layer2。
下面说说为什么可以在快思考的基础上,做出慢思考。
快思考就是靠直觉、靠本能,脱口而出,大模型肯定能做到这一点,这是共识。
慢思考就是深入分析和思考,深思熟虑。
LeCun 举过例子,说一个围棋高手,他若和初学者下棋,用系统1就行,不用思考,随便下都能赢;但如果他和另一个高手下,那就要认真点,就要用系统2了,各种琢磨。
如果一个人做慢思考,我们能知道他是怎么想的吗?
可以,办法就是,要求他,慢思考的时候,必须把自己思考的内容一个字一个字写下来。
他能写出来吗?肯定能,因为慢思考是有逻辑的,只要能想的清楚,就能说的清楚。
要不然,数学家、哲学家、教授如何著书立作,老师如何给学生上课?
任何人的理性思考,都可以一个字一个字地写下来。
从表面现象看,生成式大模型最能干的,就是一个字一个字往外输出。
所以,从本质上讲,如果把大模型看成黑盒,你不能说它不会有智能。
我们知道,大模型博览群书,博闻强记,博古通今,它会说话,还有长期记忆。
它说话的时候,似乎不假思索,张口就来,口若悬河,有时简直是信口开河。
如何让它想好了再说呢?
提示词工程的专家们早就发现,如果提示词写得好,大模型的表现就会好。
为什么呢,提示词进入大模型,相当于在工作记忆里提供了提示和指引,大模型通过其注意力机制,认真搅拌工作记忆和长期记忆的混合,出来的效果当然要好了,对人而言不也是这样吗?
大神卡帕西做视频讲,大模型做数学题需要 token 的,如果你让它立刻出结果(要求它只用很少量的 token),它出来的效果就不太好,因为这时它是靠心算,如果你让它多产生一些token去算,那就像是在纸上算,结果就会准确得多。
这说明什么?
大模型,多出一点 token,多用点时间,它思考得就会更全面、更深入,这和人类似。
人思考的时候,如果写下来,思考得会更有质量,因为写下来的东西,帮助人增加了工作记忆。
大模型在回答问题之前,先生成思考过程,是不是就很像人边写边想、边想边写?这就是推理模型的奥秘。
以前,我看到一些AI科学家信誓旦旦说他们知道 AGI 的道路,我不明白他们是怎么想的,现在知道了,就是教大模型生成思考过程。
用最简单最粗略的话说,deepseek 展示的<think>……</think>,不就是大模型在回答问题前,自己给自己弄了点提示词嘛。
我认为,这就从路线上解决了慢思考的问题,你就让它学会“边说边想、边想边说”就好了,这条路走得通。
它能学会吗?
要知道,大模型本身就有“嵌入机制”、“注意力机制”、“前馈神经网络机制”、“反向传播机制”、“多层迭代机制”这些人类天才多年AI研究的技术结晶,它又把人类知识基本看了个遍,人类的那点思维模式它早已司空见惯,你说它行不行呢,我的意思是,这家伙本来就是个巨聪明、懂得比谁都多的大可爱,再加上这么多 AI 科学家天天琢磨怎么让它学,你说它能不能学会呢。
初期可以手把手教(SFT),如果嫌麻烦,那就通过强化学习(RL)让它自己去探索,你还真不知道它能探索个什么出来,要知道,AlphaGo 就用这种方法打败了李世石。
deepseek 已经初步展示了这一点,我们只需要看着更多的公司,更牛的人才,找到让大模型更聪明思考的方法。
另外,说一点有意思的,在 deepseek 的介绍中,说道1,你让它必须从生成<think>开始,不要让它偷懒。
deepseek 团队建议必须强制它去想
这个世界,软件只可能越来越开源,越来越免费。(但这个过程,要比想象的漫长的多)
因为你不开源,有人开源,你不免费,有人免费,客户就会跑到他那里去。
你觉得你投入了很多资金,做出一个东西,怎么能免费,但总有财大气粗的,总有不在乎赚钱的,总有可以靠别的赚钱的,他就敢公开,他就愿意公开,他如果公开了,你就不占优势了。
就好像当年杀毒软件他也没有开源,他就让你免费用,他就打败了那些收费的杀毒软件。
deepseek 开源了,免费了,自然人们就跑他那里去,若非富有阶级,怎么会再去花20美元、200美元一个月买 ChatGPT?
不过,这里我更想讨论的是,deepseek 的开源,是个怎么样的开源?
我仔细想了想,它更接近免费软件,而不是更接近开源软件。
它其实就是公开了大模型的权重,开源了推理程序。
在大模型中,权重是最重要的,但现在开源的大模型,包括 deepseek,他们公开的都是二进制的权重,没有告诉你二进制是怎么来的。
就好比给你一个二进制的操作系统,你能说这操作系统是开源的吗?
你说,那个推理程序(比如 model.py),是开源的啊。
推理程序是什么,就是载入这个二进制的加载器或 VM(譬如读取“黑神话”游戏光盘的游戏机),它通常是 python 程序,一般在1000行到2000行的样子。
加载器是让二进制权重运转起来的必须环境(譬如游戏机)而已,不然,那一堆二进制权重(譬如游戏光盘),也没法用。
这个加载器,可以看作是权重的附赠品,通常是给最常见的 python 代码,如果也给二进制(比如用 C++ 写推理程序),那就完全不是开源的了。
AI 的技术皇冠,是训练方法、训练数据,虽然推理模型也很重要,但重要性要略弱一些。
所以,人们最稀罕的东西,deepseek 没有给,可能,现阶段,也不适宜给,其他开源大模型也没有给。
相比其他开源大模型,deepseek 给了介绍详细的论文,这就非常大方了,因为其他AI 大公司,为了竞争,论文都不写了。
deepseek 目前这种程度的开源,其实更多是说,你自己可以拿去部署,去推理,不要钱,但你并不能从零开始,做出来一个一模一样的权重。
今后会不会有人靠诉你如何从零做一个工业级的大模型?
你看看现有没有人告诉你如何从零做一个工业级的杀毒软件?或者,有没有人告诉你如何从零做一个“黑神话”游戏?
你可以慢慢想,我的答案是:从历史上看,越是靠近基础设施的东西,越容易被开源出来。
大模型算基础设施吗?算,因为在它之上可以出现很多新的应用。
甚至有人说,大模型就是新的操作系统。
所以,大模型必然会走向真正的开源。
一旦 deepseek 把最先进产品的训练源码及训练数据全套公开,人们就可以从零做一个 deepseek。
中国就会立刻冒出来1000家能做出 deepseek 这种全球顶尖产品的大模型公司。
《永无止境》剧照
转载自 | 卫sir说
编辑 | 段清弘
相关阅读 | Related Reading
开源社简介
开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。
自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。