从ChatGPT到AGI还有多远

从ChatGPT到AGI还有多远？

1.引子

21年开始在公司负责一个全链路语音的项目，支持公司的Iot设备，有点类似于市面上”小爱“、”小度“之类的音响，算是语音+语言在AI方向的综合应用，整体交互流程如下图：

体验过市面上这类产品的估计都有中”智障“的感觉，除了特殊的几类问题，几乎什么都不会，而且对Query的泛化也不是很好，同一个问题换个问法就不会了，给人的感觉就是”傻“。

在考虑我们竞争力的时候自己一直在思考，我们怎么做到比市面上众多产品强。抛开ASR和NLU这种比较成熟的通用的算法，从上图我们可以看到系统能干多少事取决于可以调度多少资源，比如最常用的天气、音乐、闹钟等。这种NLU+对话管理+资源调用我们称为一个”技能“，当时自己的结论是产品的好坏取决于技能的多寡，跟算法侧能力反而关系不是那么大。有些别的系统调用不到的我们内部的资源我们可以利用起来形成产品壁垒。举个例子，想用一句话实现打车功能，得有打车系统的API对我们开放，如果不开放我们就没法做到。

春节假期去看流浪地球，看到MOSS前身550W中，数字人可以生命演进，可以自动生成系统，可以做出对人类最有利的决策，顿时感觉我们现在的”智障“里真正的通用人工智能差了不知道多少光年。

过完春节返工后ChatGPT开始进入大家的视野，试用一番后发现它真的不止是在做简单决策了，是真正意义的生成了，举个例子，我问他“侯世达”，他真给“创造”了一个出来（我在各个地方都没有找到这个清华大学的“侯世达”）：

我不禁又充满了希望，ChatGPT的出世是不是意味着我们迈向通用人工智能AGI的方向前进了一个数量级？

为了搞清楚这个问题，我们先了解一下AI的发展历史。

2. AI发展史

要了解AI的历史，不得不提一个叫“达特茅斯”的会议，因为正是在这个会议中，发起人麦卡锡提出的。

1955年，28岁的麦卡锡进入了达特茅斯学院的数学系。在读本科时，这哥们就学过一点儿心理学和“自动机理论”（后来演变为计算机科学），并对创造一台能够思考的机器很感兴趣。后面他遇到了和自己一样对智能计算机的潜力十分着迷的学长马文·明斯基（Marvin Minsky）。毕业后，麦卡锡在贝尔实验室和IBM曾经短暂任职，其间，他分别与信息论的发明者克劳德·香农（Claude Shannon）以及电气工程先驱内森尼尔·罗切斯特（Nathaniel Rochester）合作过。这些人后来都成了“符号人工智能学派”的代表人物。在达特茅斯时，麦卡锡发挥自己的这些人脉关系，说服明斯基、香农和罗切斯特帮助他组织一个人工智能研究项目，这个项目计划在1956年夏天开展，为期两个月，共10个人参与1。当时他发明“人工智能”这个词是希望将这一领域与“控制论”的研究区分开来。

后面这些人都成了各届的领军人物，像信息论的创始人香农，并且后来麦卡锡在斯坦福大学、明斯基在麻省理工大学，纽厄尔与西蒙在卡内基梅隆大学分别创建了实验室。当时当时的他们还很年轻，所以有些天真，所以他们非常乐观地认为人工智能是触手可及的：“我们认为，只要精心挑选一组科学家共同针对这其中的一个或多个课题研究一整个夏天，就能够取得重大的进展。”

与上面“符号人工智能”相伴而生的还有以罗森布莱特为代表的感知机，基于对神经的模拟。1969年，明斯基和他在麻省理工学院的同事西摩·佩珀特（Seymour Papert）出版了一本名叫《感知机》（Perceptrons）20的书，书中给出了一个数学证明，表明感知机能够完美解决的问题类型非常有限，因为感知机学习算法随着任务规模的扩大需要大量的权重和阈值，所以表现不佳。随后感知机方向衰落，更悲哀的是之后两年，43岁的罗森布莱特丧生于一次划船事故，感知机方向更是雪上加霜。

与此同时，符号人工智能的倡导者正在撰写拨款提案，并承诺将在语音和语言理解、常识推理、机器人导航，以及自动驾驶汽车等领域取得突破。到了20世纪70年代中期，虽然有几个聚焦面狭窄的专家系统得到了成功部署，但之前承诺过的更通用的人工智能突破并未实现，随后人工智能进入寒冬。

后面又有几个重要的时间节点：

1997年：IBM深蓝机器象棋领域战胜人类
2006年：深度学习三巨头辛顿、杨立昆、本吉奥推动深度学习发展
2011年：IBM沃森在“危险边缘”节目战胜人类
2016年：AlphaGO在围棋领域战胜人类
2022年：ChatGPT横空出世

由于游戏独特的优势，很多人在研究人工智能时都会从游戏作为切入口。1949年塞缪尔（第一个提出机器学习概念）就尝试编写西洋棋游戏。在深蓝战胜象棋领域人类冠军前人们一度觉得机器在象棋界无法战胜人类。上述每个事件的发生都在当时对人们造成了极强的震撼。聊到游戏，我们在说说DeepMind：

2010年，年轻的英国科学家兼游戏爱好者戴米斯·哈萨比斯与他的两位密友在伦敦创办了一家名为DeepMind的科技公司。哈萨比斯是现代人工智能界中一个有趣的传奇人物，他是一个在6岁前就获得过国际象棋比赛冠军的神童，15岁时开始专职编写电子游戏程序，22岁时创办了自己的电子游戏公司。除了创业活动，哈萨比斯还在伦敦大学学院获得了认知神经科学博士学位，以进一步实现他构建受人脑启发的人工智能的目标。哈萨比斯和他的同事创立DeepMind是为了解决人工智能领域真正根本的问题。DeepMind团队将电子游戏视为解决这些问题的绝佳场景。在哈萨比斯看来，电子游戏像是现实世界的缩影，但更纯净并且更易被约束。

DeepMind团队将强化学习，尤其是Q学习，与DNN相结合，创建了一个能够学习玩雅达利电子游戏的系统。DeepMind团队将他们的深度Q学习方法用在了街机学习环境中49款不同的雅达利游戏上。虽然DeepMind的程序员对这些游戏使用的是相同的网络架构和超参数，他们的系统在学习一款新的游戏时，仍然需要从零开始，也就是说，系统从一款游戏中学到的知识（即网络权重）无法迁移到另一款游戏上。在每一款游戏上，系统都需要经过上千个片段的训练，但该过程可通过先进的计算机硬件比较快速地完成。

DeepMind在2013年的一场国际机器学习会议7上首次展示了这项成果，观众看得眼花缭乱。之后不到1年，谷歌宣布以4.4亿英镑（当时约合6.5亿美元）的价格收购DeepMind，想必是看中了DeepMind取得的这些成果。想在DeepMind也代表着谷歌对于AI的一种研究方向。

介绍AI发展历史想表达几个观点：

一个领域的发展离不开资本的支持；
一个领域行业不是一蹴而就的，会经历几波寒冬到复苏的过程；
一个方向在当前不被认可，可能并不是方向不对，二是环境不成熟，比如感知机，也就是神经网络的雏形，当时被批骗经费，现在随着算力的提升，以及数据的成熟而成了主流。
每个突破都会给人带来强大的震撼，以及与觉得通用人工智能离我们触手可及。
引用达特茅斯学院研讨会举办50年后，麦卡锡总结的最简单的教训：“人工智能比我们认为的要难”。
再应用明斯基的总结：“看似容易的事情其实都很难”

3. ChatGPT产生影响

ChatGPT给我们带来足够的震撼，我们先来弄清楚什么是ChatGPT。

ChatGPT是OpenAI公司的产品，OpenAI总部位于旧金山，由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立，目标是开发造福全人类的AI技术。后面马斯克的特斯拉一直从OpenAI挖人，后面遭到了其他老板的嫌弃，最终马斯克在2018年离开。从2018年起，OpenAI就开始发布生成式预训练语言模型GPT（Generative Pre-trained Transformer），可用于生成文章、代码、机器翻译、问答等各类内容，结果了几次迭代有了现在的ChatGPT：

模型	发布时间	参数量	预训练数据量
GPT-1	2018年6月	1.17亿	约5GB
GPT-2	2019年2月	15亿	40GB
GPT-3	2020年5月	1750亿	45TB
ChatGPT	2022年12月	千亿级？	百T级别

为什么直到ChatGPT我们圈外人才开始了解GPT，因为之前的版本不够好，最起码没有好到让我们震撼的地步。从参数规模上看，每个版本都是一个数量级的提升，对ChatGPT的推测可能都已经过于保守了。ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练，或用于收集大量对话数据。

从我们对ChatGPT的使用看，ChatGPT有一下特点：

可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。比如我们让写一篇文章，写完后我们可以告诉它不够精简，它会再给一个精简版。
ChatGPT 可以质疑不正确的问题。例如被询问 “刘备和和刘禹锡2020年父子慈孝的情景” 的问题时，机器人会说明他们不属于这一时代并调整输出结果。
ChatGPT 可以承认自身的无知，承认对专业技术的不了解，深的孔子“知之为知之不知为不知”的精髓。
支持连续多轮对话，多轮对话能力也是上面特征的基础，它会记录当前会话的上下文。

OpenAI使用 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术对 ChatGPT 进行了训练，且加入了更多人工监督进行微调。

继续深入的原理可以去看看paper:Augmenting Reinforcement Learning with Human Feedback，并参考响应的文章说明。说到底对于我们使用者来说，ChatGPT是一个基于 Transformer 的语言生成模型，它能够自动为输入的主题生成合适的文章，类似的StableDiffusion 是一种强大的图像生成模型，能够通过对一张图片进行演化来生成新的图片，Github Copilot 是一个智能编程助手，能够加速日常编程活动，他们都是AIGC的一部分，AIGC不是一个新鲜事物。

1981年开始，计算机科学家、作曲家大卫科普在加州大学圣克鲁兹分校设计了仿真机器人EMMY（名字取自“音乐智能实验（Experimentsin Musical Intelligence）”的首字母缩写）。EMMY创作出了大量令人信服的音乐，从巴赫的赞美诗、莫扎特的奏鸣曲到肖邦的玛祖卡，还有贝多芬的第十交响曲以及马勒的五幕歌剧。

美国学者侯世达拿EMI做了一次实验，纽约州罗切斯特市著名的伊士曼音乐学院，由一位钢琴家为他们演奏的两首曲子中，哪一首是肖邦鲜为人知的马祖卡舞曲，哪一首是EMI创作的乐曲。这些听众中还包括几位从事音乐理论和作曲研究的教员。一位观众后来这样描述：“第一首马祖卡舞曲优雅且有魅力，但缺少‘真正肖邦式’的创作深度和更强的流畅性……第二首显然是真正的肖邦，有抒情的旋律，大幅的、优美的半音阶转调，以及一种自然、平衡的形式。”而且许多听众都同意这位听众的观点，认为第一首是EMI的创作，而相信第二首是“真正的肖邦”。然而，正确答案恰恰是相反的。

2005年，科普销毁了EMI所有的音乐特征数据库。他的理由是：由于EMI能够如此容易地进行无限创作，评论家会因此低估它的价值。科普认为，只有像哲学家玛格丽特·博登（Margaret Boden）所写的那样，成为“有限之物，就像所有必死的人类作曲家那样”，EMI才会被珍视为作曲家。在那个年代音乐生成就已经这么令人信服了。

回过头来再聊几句ChatGPT，ChatGPT是基于大型语言模型的，ChatGPT让人惊喜是因为没想到大型语言模型（LLM,Large Language Model）效果能好成这样，就像古代的炼金师找到了一种新的组合一样，就像引力波被证明了存在一样，如果没有ChatGPT的效果，谁也不敢保证大模型能有这种效果。

魔法的生效来源于这种神奇的现象：涌现能力。深度学习在理论上的孱弱一直被诟病，但科学史上存在大量先有应用再有理论的事例，而其中不能解释的重大实验现象往往预示着理论创新的契机。我们首先从现象出发，来看下LLM中最神秘的emergent ability，如图：

上图中x、y轴分别表示模型规模和模型效果。研究员们至今无法给出令人信服的解释，为什么主流的大型模型在规模超过10^22级别后，效果会突然大幅提升。这个问题非常重要，有可能搞清楚这个问题，就能终结追求AGI路上的统计和符号的路线之争。

总结一下这一节，ChatGPT带来了什么影响：

给人们足够震撼，AI再次进入黄金期，吸引资本。去年被裁一个做NLP同事都开始做一直找不下工作的打算，现在一下貌似又好起来了。
发现了大模型的涌现现象，证明了大模型的效果可行。

4. ChatGPT的局限

本节我们分析下目前ChatGPT表现出来的局限性。尽管ChatGPT出色的上下文对话能力甚至编程能力，刷新了大众对人机对话机器人（ChatBot）的认知，从“人工智障”到“有趣”的印象改观，使用过程中我们还是发现ChatGPT技术仍然有一些局限性，还需要不断的进步。

ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力，甚至会一本正经的“胡说八道”。ChatGPT在很多领域开始不懂装懂，但当我们寻求正确答案时，ChatGPT也有可能给出有误导的回答。例如第一节关于“侯世达”的答案；
ChatGPT需要非常大量的算力来支持其训练和部署。首先要有足够多的数据，其次还有有足够多的服务器，这些都是成本，这些服务器的成本是普通用户，甚至中小规模的公司无法承受的，即便数十亿个参数的模型在搜索引擎的部署也需要惊人数量的计算资源才能运行和训练。所以完全2C，开始应用到生活的方方面面，大量的请求会让人吃不消。当然已经有人计算过费用，接入搜索引擎后成本比传统搜索成本高不了太多，收益可以完全cover，但总归是个不小的门槛；
ChatGPT还没法在线的把新知识纳入其中，而有了新数据重新预训练GPT模型也是不现实的，所以模型更新是个问题。当然可以对于新知识采取在线训练的模式，看上去可行且语料成本相对较低，但是很容易由于新数据的引入而导致对原有知识的灾难性遗忘的问题，就像我们不经测试的代码上线会带来意想不到的故障。
ChatGPT仍然是黑盒模型。目前只是找到了“涌现”的阈值，但还不知道为什么。而且目前还不能对ChatGPT的内在算法逻辑进行分解，因此并不能保证ChatGPT不会产生攻击甚至伤害用户的表述。
跟第四个类似，合规相关的，会不会歧视，会不会引导犯罪，法律如何去约束智能，这些人工智能长期讨论的点目前都没有答案。
ChatGPT模型增长的局限：既然有涌现点，会不会有局限点？就是达到一定规模后效果再也不会增长，而且本身数据就存在一定局限性，优秀的数据那么多，再挖掘也很难产生量级的数据，而且达到瓶颈后徒劳增加数据只会增加系统噪音，降低信噪比。

5. AGI有哪些硬性要求

从历史聊到ChatGPT的影响，又聊了ChatGPT的局限性，现在回归我们文章的主题：从ChatGPT到AGI还有多远。

我们先看看通用人工智能应该具备些什么，抛开“图灵测试”，终极目标以流浪地球的MOSS作为标准：权衡决策、快速学习、突破领域限制、拥有意识、又创新性能力等，最终是一个“超级智能体”。

再来聊一个更具体的事情：自动驾驶。美国国家公路交通安全管理局为车辆定义了6个自动等级：

1级：车辆能够偶尔通过控制方向盘或车速来对人类驾驶员提供支持，但不能同时进行。
2级：在某些情境下（通常是在高速公路上），车辆可以同时控制方向盘和车速。人类驾驶员必须时刻保持高度注意力，监控驾驶环境，并完成驾驶所需的其他行为，如变换车道、驶离高速公路、遇到红绿灯时停车、为警车让行等。
3级：在某些特定情境下车辆可以执行所有的驾驶行为，但是人类驾驶员必须随时保持注意力，并随时准备在必要时收回驾驶控制权。
4级：在特定情境下，车辆能够完成所有的驾驶行为，人类不需要投入注意力。
5级：车辆可以在任何情境下完成所有驾驶行为。人类只是乘客，并且完全不需要参与驾驶。

现在的自动驾驶达到哪个级别我们很清楚，所谓通用，你可以把它想成一个人，一个聪明的人，一个超越聪明的人。

那么到底通用人工智能是远还是近呢？DeepMind创始人之一沙恩·莱格（Shane Legg）认为，超越人类水平的人工智能将在2025年左右出现；谷歌公司战略委员会成员雷·库兹韦尔（Ray Kurzweil）提出了令人震惊的“奇点理论”，他认为2029年完全通过图灵测试（Turing test）的智能机器将会出现，以强人工智能为基础的智能爆炸将会在2045年出现，库兹韦尔当年预言打败人类专业象棋选手的机器出现时间是1998年，而深蓝提前一年实现了这个预言。但是从目前的情况看远没有那么乐观，再看看第二节发展历史中麦卡锡和明斯基的反思。

6. 总结

本文从我们之前接触的“人工智障”为引子，介绍了人工智能发展历史中的一些重要线索，接着介绍了ChatGPT及ChatGPT的局限性，分析了要实现AGI需要的硬性条件，并且得出了相对悲观的结论。

最后再来聊一点关于AI未来给我们带来的影响，比如人被代替，我们会不会失业。我们再次回顾历史，基本上每次AI的突破都会给人们带来恐慌。人类在过去100多年内至少经历了三次重大变革：就是“老”“旧”“新”三次IT变革。当年，人们对老IT（工业技术）的担心远大于今天我们对新IT（智能技术）的担心。在工业革命的发源地英国，纺织工业诱发“羊吃人”现象，女王担心机器的大规模使用将使她的臣民变成乞丐，民众更是揭竿而起，干脆一把火将机器烧了。

100多年前，杰文斯发现了一个规律：烧煤效率越高，耗煤量将会越大。这就是杰文斯悖论：技术进步可以提高自然资源的利用效率，但结果是增加而不是减少人们对这种资源的需求，因为效率的提高会导致生产规模的扩大，这会进一步刺激需要。

推广到更大的维度，这个结论仍然成立：技术进步可以提高人力资源的利用效率，但结果是增加而不是减少社会对人力资源的需求，因为效率的提高将导致生产规模的扩大

科技是生产力，生产力是促进就业而不是减少就业。引用维纳说的“人有人用，机有机用”，人还是有价值的。

但是科技的变革会带来行业的洗牌，可能有些行业确实面临消失，所以人能怎么办，拥抱变化吧！

从ChatGPT到AGI还有多远