开源社KAIYUANSHE

以下文章来源于卫sir说 ,作者卫剑钒

[

卫sir说 .

说人话。

](#)

近日,Yann LeCun(杨立昆)来到 Lex Fridman 的播客,展开了一场2小时47分的对谈(2024年3月8日发布),本文整理了他的主要观点。

Yann LeCun(1960年7月8日~),法国计算机科学家,自取中文名杨立昆,任Meta首席人工智能科学家和纽约大学教授,他带领Meta的团队推出了开源大模型领域 Llama 2。他于2018年与 Yoshua Bengio、Geoffrey Hinton 一同获得图灵奖。

Lex Fridman(1983年8月15日),MIT 的 AI 研究员,播客主持人。自2018年起,采访了各个领域的知名人士。

[](https://mp.weixin.qq.com/s?__... LeCun(杨立昆)[](https://mp.weixin.qq.com/s?__...

以下,本文简称 Yann LeCun 为 LeCun。

本文所称大模型,主要是指大语言模型(通常是自回归的),简称 LLM。

以下为 Lecun 的主要观点。

智能实体有许多特征。理解物理世界、记忆和回忆事物、推理能力、计划能力,这是智能系统(包括人类和动物)的四个基本特征,LLM 无法做到这些,或者只能以非常原始的方式做到这些。

LLM 并不真正了解物理世界、LLM 并没有真正的持久记忆,LLM 无法真正推理,当然也无法计划。

LeCun 说:这并不是说LLM没有用,它们当然有用,但它们很无趣。

我们人类学到的大部分东西,都来自于我们对现实世界的观察和互动,而不是只是通过语言和书本。人类在生命最初几年学到的一切,以及动物一辈子学到的一切,都与语言无关。

而大语言模型 LLM 仅仅通过语言学习。

LLM 的训练方式是:你拿来一段文本,删除文本中的一些单词(事实上是 token,本文不区分),用空白代替它们,然后训练一个神经网络来预测缺失的单词(这是一种自监督方法)。LLM 基本上就是试图预测(本文所说的预测,可以理解为“生成”)文本中的下一个单词。它生成字典中所有可能单词的概率分布,然后选择概率较高(不一定是最高)的单词而已。产生一个单词后,然后将该单词移入输入中,这样系统就可以预测第二个单词了,这就是自回归 LLM。

LLM 本能般地吐出一个又一个单词,它不会真的去思考答案。

LeCun 举例说:“这有点像你分心时的潜意识行为,你在做某事,完全集中注意力,然后有人来问你一个问题,你下意识地回答了他,你没有时间去思考答案。这就是 LLM 所做的事情。它其实不去认真思考它的答案。它之所以能够给出答案,是因为它积累了很多知识。”

大模型这种自监督的训练方式(盖住单词让它猜),在语言方面非常有效,但对视频,这种方法行不通。

Lecun 说,我们用过很多种方法(如 GAN,VAE,正则化自动编码器等),试图以自监督方式训练神经网络,把视频遮盖或损坏一块,想让系统能够学会重建视频,基本上,这些方法都遭到了彻底的失败。

一种可能的替代方案是 JEPA(联合嵌入预测架构),在这种方法中,你不需要直接预测被损坏的像素,你只需要预测损失部分的抽象表示(比如特征向量乃至文本等)。

JEPA 系统在训练时,从视频输入中只提取那些相对容易预测的信息(而不是所有信息)。世界上有很多事情是我们无法预测的,例如,有一辆自动驾驶汽车在街道上行驶,周围可能有树,而且可能正在刮风。树上的叶子以一种半混乱、随机的方式摇动,你无法预测这些,也不想预测这些树叶。我们只保留其中可以建模和预测的内容,其余的则被编码器视为噪音并消除掉。这样不仅简单得多,而且还能让系统从本质上学习到世界的抽象表征。

人类也是这样工作的,不管我们描述什么,我们都是在特定的抽象层次上描述的,我们并不总是用量子场论来描述每一种自然现象,那是不可能的。所以,我们不必在像素层次进行学习和推理,这正是 JEPA 的理念所在。

大模型在语言方面之所以有效,是因为语言在某种程度上已经是抽象的,已经消除了很多不可预测的信息。

我们将图像抽象为语言或者类似语言这样的东西,然后利用语言的可预测性,把预测出来的东西解码为图像,就得到了我们想要的东西。这正是目前人们在视觉-语言模型上所做的。

“我们用语言作为拐杖,帮助我们从图像和视频中学习良好的表征。”

LeCun 认为,对于 AI 而言,建立一个对世界有深刻理解的模型是至关重要的,但能通过预测单词来构建它吗?答案是否定的,因为语言没有足够的信息。

一个深刻的世界模型意味着要观察世界,了解世界为什么会以这样的方式运转。

我们的系统也许可以像孩子那样学习世界,孩子在一开始了解世界的时候,并没有太多的文字,很多东西主要是通过观察来学习的,甚至不需要互动。孩子仅通过观察就可以积累大量的知识,这是当前人工智能系统缺失的东西。

Yann LeCun 说,“Llama 在未来某个版本,会真正了解世界如何运作的,这可能是通过视频进行训练的,并会具备我所说的推理和规划能力。这需要多长时间?我不知道,也不能告诉你。”

“基于视频的世界模型训练,是很多人在做的事,包括 DeepMind 和 UC Berkeley 也在做这样的尝试,我打赌这些系统都是通过像 JEPA 这样的方法实现的,到时我们就知道了。”

[](https://mp.weixin.qq.com/s?__... LeCun(杨立昆)[](https://mp.weixin.qq.com/s?__...

人类的推理可以分为两个系统:系统1和系统2,系统1无需有意识思考就能完成任务,而系统2通过思考和计划完成任务。LLM 目前无法做到系统2级别的推理。

LLM 为什么看上去还不错?是因为它已经训练过足够多次,以至于可以无意识完成问题回答。比如你是一位有经验的驾驶员,你可以在不真正思考的情况下驾驶;你是一位非常有经验的国际象棋选手,你和一位没有经验的对手下棋,你基本也无需思考。这时你用的就是系统1,你本能地做事,并不太用心,也不刻意。

如果你是与另一位有经验的选手对局,你就会用心思考,你会花时间考虑各种选择,你的表现会比下快棋时要好得多。这时你用的是系统2,这正是 LLM 目前无法做到的。

LeCun 介绍了一种基于能量的模型来实现系统2。这个模型会评估答案的质量,模型仍然使用一个巨大的神经网络,但能够将答案的好坏表示为一个数值,如果是个好答案,输出为零;如果答案很差,则输出一个较大的数。

这个模型要做的事,就是在可能的答案空间中搜索一个最小化该数字的答案。如果输出值比较大(答案不够好),系统就通过参数调整优化答案,仍然可以通过梯度下降、反向传播这些方法来优化(如果整个系统是可微的)。但注意,这里的优化发生在推理过程中,而不是训练过程中,这是在推理过程中改变参数!使用这种模型,对于越是困难的问题,推理时间可能就越长。

近期有很多人致力于让 AI 可以推理和规划,在未来几年中,将会有很多系统具备这种能力,它们与自回归式 LLM 会有很大不同。

LeCun 说,“在过去的十几年,我一直听到有人声称 AGI(通用人工智能)指日可待,但他们都错了。”

我们会有那种通过视频就能学习世界运作方式的系统吗?我们能否做出一个内含大量关联记忆的系统,使得大模型能回忆起什么东西吗?我们能拥有一个可以推理和规划的系统吗?

会有的,但让所有这些东西协同工作,我们至少需要十年甚至更长时间,因为有很多问题我们现在还没有看到,还没有遇到。

未来十年,人型机器人领域将非常有趣,但家用机器人不会很快到来。主要问题还是莫拉维克悖论。

莫拉维克悖论是莫拉维克(Moravec)等人在上世纪80年代所发现和阐释的:要让 AI 如成人般地下棋、解数学题是相对容易的,但是要让 AI 有如4岁小孩般感知和行动,却是相当困难的。正如史迪芬·平克所说:“困难的问题是易解的,简单的问题是难解的”。

10岁的孩子可以学会清理餐桌和装满洗碗机,17岁孩子可以通过20小时的训练学会驾驶,但我们现有的 AI 做不到,我们到底错过了什么?

波士顿动力的机器人看上去很酷,但它背后是大量手工制作的动态模型和事先的精心策划,他们造不出家用机器人。

LeCun 认为,在 AI 能够通过自监督训练而拥有世界模型之前,我们不会在家用机器人方面取得重大进展。

LeCun 说,“人工智能末日论者想象了各种灾难场景,设想人工智能如何逃脱人类控制,并几乎杀死我们所有人,这依赖于一大堆假设,而这些假设大多是错误的。”

首先,AGI 并不像科幻小说设想的那样突然被发明出来,人类拥有 AGI 是一个渐进的过程,我们先会拥有一个像猫一样聪明的系统,在让它们变得更聪明的同时,我们也会在它们身上设置一些防护栏,让它们表现得更加正常。

其次,会有很多人做这样的事(给 AI 装防护栏),有一些人将成功制造出可控的、安全的有防护栏的 AI,如果有些 AI 变成坏蛋(rogue),我们可以使用安全的系统来对抗它们。所以,我的聪明 AI警察将对抗你的 AI坏蛋,不可能突然出来一个 AI 坏蛋,就能杀死我们所有人。

最后,那种认为只要有智能就必然想控制世界的观点,完全是错误的,谁说聪明人就一定想掌权?人工智能没有统治的欲望,因为统治的欲望必须被硬编码到智能系统中。

转载自丨卫sir说

作者丨卫剑钒

编辑丨左文瑒

相关阅读 | Related Reading

【Deep Dive: AI Webinar】版权是开源代码的正确答案,还是开源人工智能的错误答案?

【Deep Dive: Al Webinar】人工智能数据隐

LF AI&Data 基金会主席孟伟:大模型开源与商业化仍处模糊地带

开源社简介

开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。

开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。

自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。


开源社
1 声望1 粉丝

开源社成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持厂商中立、公益、非营利的特点,是最早以 “开源治理、国际接轨、社区发展、开源项目” 为使命的开源社区联...