“18 年的时候 IIya 和我说,(大语言)AGI 可能快实现了”,赵行提到,“Scaling Law 奠定了 OpenAI 所有工作的基础,但具身智能领域还没有找到 Scaling Law,就导致了机器人和自动驾驶发展的瓶颈”。随着 GPT、Sora 等大型生成式模型的普及,业界对 Gen AI 对物理世界的影响持有不同观点。如果有无限算力,通用机器人和自动驾驶就可以实现了吗?语言模型、视频模型等生成式模型与具身智能基础模型有什么区别?
乍暖还寒的一个春日下午,BV 百度风投拜访了清华大学信息交叉学院的赵行老师,一起讨论 Scaling Law 对当下基础模型与具身智能的重要性。
KEY TAKEAWAYS
- 具身智能的终极目标是理解或控制我们生活环境中的所有物体
- Scaling law 的重要程度已经不亚于摩尔定律
- 具身智能可以分为三大基础模型:感知基础模型、移动基础模型和操作基础模型
- 规模化的产品部署能带来海量的高质量真实数据
- 找到具身智能的 Scaling Law,关键在于三点:训练目标,大规模数据,模型的表征能力
- 好的系统有规模效应,坏的系统有反规模效应
- 神经网络化不意味着要做黑盒系统
- 科学定义中间界面是好的具身智能系统被设计出来的关键
- Embodied AI 和 Generative AI 的训练目标不同,Sora 的目标是渲染,而感知基础模型的目标是理解与重建
- 不再推崇论文数量,而是要保证研究的质量
对话双方
- 清华交叉信息研究院助理教授-赵行
- BV 百度风投-轲迪、Han
01 定义问题
AI 的发展为什么需要 Scaling Law?
BV:赵老师,前几年我们其实很少提到 AI 的 Scaling Law,这是为什么?
赵行:Scaling Law 是 AI 模型训练过程中的一个重要经验性发现。简而言之,这一法则揭示了随着数据量的增加,三个关键因素—模型大小、数据量、以及训练时间(计算量)—的增长能够不断地提升模型性能。这种性能提升遵循一个对数规律,即 loss 随着这三个因素的指数提升而线性下降。
在传统的小模型中,性能往往会随着训练次数的增加而趋于饱和,甚至出现过拟合的情况,导致性能不升反降。然而,Scaling Law 的发现表明,对于大模型,通过增加数据量、扩大模型规模以及延长训练时间,可以实现模型性能的持续提升。
在 OpenAI 2020 年初发布 Scaling Law 的工作时(https://openai.com/research/scaling-laws-for-neural-language-...),这个领域并没有受到足够的重视。但在 2022 年 OpenAI 发布 ChatGPT,大家重新回顾这篇论文的时候,就会意识到 Scaling Law 的研究奠定了 OpenAI 所有工作的基础,包括最近的 Sora。
BV:所以我们可以很自然的联想,具身智能(Embodied AI)也是有自己的 Scaling Law 的。不过为什么要去寻找这个 Scaling Law?
赵行:在尝试使用 AI 技术开发机器人时,我们面临的最大挑战是:缺乏一个在泛化性和通用性上表现出色的高性能模型。这和现在我们看到的语言模型和视频模型是不一样的。大语言模型把各种自然语言任务都放在了一个 GPT 框架里面解决;大视频模型通过模型设计,让生成各种各样的内容、不同长短、不同分辨率的视频任务都能用一个模型完成。但是在具身智能领域,我们一直没有看到这样的模型,其实就是没有找到里面的 Scaling Law。
自然语言和视频生成模型的发展给了我们重要的启示,将众多零散的任务和数据吸纳到一个框架中去,可以实现基础模型的规模化效应。
在具身智能的研究中,我们也追求类似的目标,希望将众多分散的小任务整合进一个或几个大型的框架中。我自己把具身智能的框架分为三个基础模型:感知基础模型、移动基础模型和操作基础模型。未来,移动和操作基础模型会合并成运动控制基础模型,来完成 Whole Body Control。
BV:基础模型训练后具身智能就可以实现了吗?
赵行:具身智能有几百种具体的下游任务,有了感知、移动、操作基础模型以后,我们还需要做的事情就变成了简单的示教或者微调,来解决这些下游任务。用自然语言来作类比,当我们有了一个语言大模型之后,后面要做的事情就是把它和人的价值观对齐,通过提示或者微调来解决下游任务。所以说解决下游任务虽然是最终目的,但是它不是手段,我们的手段是要训练好这个基础的能力,然后再去进行对下游任务进行微调和对齐。
BV:感知、移动、控制基础模型的定义分别是什么?
赵行:感知是机器人的眼睛,来为后面所有的移动和操作进行服务。移动和操作都属于规划控制问题,只不过这两块也很不一样,移动是控制本体姿态,而操作是通过本体去控制其他物体的姿态。操作比移动的规划控制复杂度更高,所以这也是为什么在学术界有大量的研究者在解决操作问题。在这个领域,我们学院的许华哲老师是最擅长的。
02 行业思考
对比自动驾驶,具身智能如何更好的与世界交互?
BV:过去机器人和自动驾驶行业也做感知和移动,行业里有没有找到对应的 Scaling Law?
赵行:很难。当我们谈论自动驾驶时,要先明确区分两个层面:自动驾驶行业和自动驾驶技术。首先,自动驾驶作为一个行业,代表了具身智能在公开道路上的应用。其次,我们讨论的是过去十几年自动驾驶技术的发展。这段时间的技术发展奠定了自动驾驶的基础,但从理论和技术层面看,它仍然与我们目前追求的下一代具身智能技术存在距离。具身智能的终极目标是理解或控制我们生活环境中的所有物体;自动驾驶的目标是理解路上的各种物体,并且控制自车移动。
我们可以先看看过去自动驾驶是怎么解决这些感知问题的:用激光雷达做障碍物的检测,以及用卷积神经网络去做物体框级别的物体理解。如果是沿着这条路线走的,大家是很难找到 Scaling Law 的,这是感知的问题。
我们再来看移动。以前的方法一般是通过 if-else 规则做高层次决策,然后用搜索找到在道路上可行驶的空间,然后去基于可行驶的空间,优化出轨迹。在这个不基于学习的框架下,移动规划也不可能找到 Scaling Law。
BV:感知和移动方向没有找到 Scaling Law 的结果是什么呢?
赵行:在感知层面,没有 Scaling Law,长尾的物体只能 case by case 的解决,缺失一个统一的方案。在移动规控层面,也是类似的长尾问题。对于我们没有写过规则的场景,比如和电瓶车的交互,就需要加一些新的规则,最后这些基于规则的方案就堆积如山。当这套系统慢慢变大,大到一定程度以后就没有办法比较好的自洽以及闭环了。所以说从这两个方面来看,我们都没有找到 Scaling Law。
这对我们在推动下一代自动驾驶和具身智能技术有很大的启发和教训,好的系统有规模效应,坏的系统有反规模效应。之前堆出来的系统,大部分都是反规模效应的,而越是神经网络驱动的系统,越具备规模效应的可能性。这是一个必要条件,不是一个充分条件。越是 Rule-Based 的系统,就越具备反规模效应的可能性,很多技术比较先进的公司应该都意识到了。
BV:怪不得之前有朋友提到,即使有无限的算力,目前自动驾驶遇到的问题也可能无法解决。那么在具身智能的感知和规控领域,任务变得比自动驾驶更加复杂,除了车辆、行人,我们基本要去理解世间万物。如何才能找到具身智能领域的 Scaling Law 呢,我们可以先说说感知基础模型。
赵行:找到具身智能的 Scaling Law,关键在于三点:第一,正确的神经网络训练目标,第二,有大规模高质量的数据,第三,强大的模型表征能力。
这三点是具身智能 Scaling Law 的核心必要条件。
BV:可以分别谈一谈这三个必要条件吗?
赵行:我先说感知基础模型吧,感知基础模型需要实现人眼级别的感知能力。
首先是训练目标要正确,训练目标需要顶尖的算法人才定义。例如扩散模型优化的是图像或视频数据的边缘分布。
然后是数据,我们要有大规模、高质量、可持续获取的数据源。在传统的视觉框架里,大多数数据都严重依赖人工的标注。在具身领域,为了达到人眼级的三维感知,理解上千类物体,我估计需要大约 10 亿个数据对象。生产这些数据不能依赖人工标注,需要有一套能够自动生产高质量标签的方法。以我的了解,真正高质量的数据是极其稀缺的。
最后是模型的表征能力。模型架构仍然是研究者们探索的重要课题;遵循 Scaling Law 的感知基础模型会比较大,但不会有自然语言模型那么大。我的基本判断可用的感知基础模型可能会在 1 个 Billion 或是几个 Billion。这个也比较符合大家对 Sora 的判断,Sora 预计也是在 10B 左右,而理解类的基础模型会比生成模型小。
BV:那我基本理解感知的基础模型了,我们再来谈谈移动的基础模型。也是从训练目标、数据和结构开始分析?
赵行:移动是一个发展更加不完善的方向,因为真正使用神经网络模型来做移动归控的也不多,大多数都是基于规则(Rule-Based)的。而 Scaling Law 一定是发生在已经神经网络化的系统中的。从训练目标来看,对于移动规控的优化目标是比感知更加清晰的。以自动驾驶为例,我们的目标就是去模仿人开车的行为,来做一个合理的移动规划。
从数据量来看,对于车企来说,去获取海量的驾驶数据其实是不难的。所以其实我们看到 Tesla 已经采到了大量的用户驾驶数据。
从模型来看,我觉得大家还没有或者在公开信息里还没有找到最适合移动规划的模型结构,所以其实过去行业里在做移动的时候也是没有找到 Scaling Law。
BV:移动基础模型和感知的基础模型哪个更难训练?
赵行:难的维度不一样,都很有挑战。感知和规划是两头,感知的输入空间是已知的,就是传感器输入,移动规控的输出空间是已知的,就是模仿人开车的轨迹,并保证不触犯边界的安全问题。但是感知和移动的中间界面是什么我们还不清楚,它决定了感知输出的优化目标,也决定了移动的的输入。所以对于端到端自动驾驶或者具身智能的架构师来说,如何定义中间界面是一件非常有挑战的事情,是好的具身智能系统被设计出来的关键。
BV:中间的界面是指?
赵行:比如说特斯拉他们经常讲的一个概念是矢量空间,Vector Space。这个就是他们定义的中间界面,当然特斯拉肯定是过分简化了描述,里面肯定是很有讲究,需要去精细定义的,这样我们就能把一个复杂的系统问题模块化。
BV:怎么理解 Elon Musk 常常说的端到端自动驾驶?
赵行:端到端自动驾驶的核心是神经网络化,神经网络化不意味着我们要把整一个系统做成一个黑盒,如何确定中间的界面真正体现了团队的能力以及对于这个问题理解的深度。几年前 VectorNet 就是我们的一个早期的探索,我们定义了中间的矢量空间,这个事情其实和特斯拉是不谋而合的。
BV:看起来具身智能的实现还是非常依赖自动驾驶行业的经验,就比如 Tesla 和 Optimus 的关系。
赵行:是的,我觉得对于做自动驾驶的从业者来说,过往既是经验也是教训,离正确道路更近。
BV:虽然 Tesla 提出了 Optimus,但是看起来汽车和机器人的移动还是两件事。
赵行:我认为大部分是类似的。自动驾驶车最理想的策略是按照人类驾驶的习惯移动,该跟进的时候跟进,该礼让的时候礼让。对智能机器人来说,目标也是能够进行类人的移动。比如说它要知道在用户的人群里面应该怎么移动,还要遵守一些社交的规则。比如说有一排人在排队,机器人是否应该从人类中间穿过去,还是后面绕过去,还是说在排队间隔的档口进行移动。这些移动还是要符合人类的社会规则,都需要从人的移动行为上进行学习。
BV:我们目前见到的机器人应该都没有这种交互能力吧?
赵行:我们目前看到的机器人,基本都还没有这种交互能力。我们觉得真正能和人生活在一起的移动机器人,它才能进行可社交(交互)的移动。
BV:从 OpenAI 发布 ChatGPT 开始,大家会畅想大语言模型能够推动机器人行业发展。这次 Sora 的发布,有一种论调也是在说大视频模型会推动机器人行业发展,您怎么看待这个问题?
赵行:大视频模型对于具身智能行业是有启发的,具身智能的突破也会启发生成式 AI。但我们不能说生成式 AI 可以直接帮助到具身智能。这里面其实要明确的是 Embodied AI 和 Generative AI 的区别。二者的训练目标不同,所以不能说二者有直接联系。但是二者的技术架构是可以互相借鉴的。
BV:二者的目标有什么不同呢?
赵行:对于 Sora 这种视频生成模型来说,它的目标是渲染,渲染生成出一个让人觉得看起来非常好看且合理的视频,但是具身智能感知基础模型的目标是理解与重建,更多是想要理解这个三维物理世界。举一个具体的例子,人在走路时的移动并不依赖于预测下一帧的具体像素变化,而是基于对环境的整体理解和即时的感知决策。
BV:除了感知,Sora 对移动和操作基础模型的影响也是有限的?
赵行:世界模型 World Model 构建基于两个核心要素:状态(state)和动作(action)。简而言之,一个给定的状态通过特定动作的施加,依据物理世界的运动规律,演化成为另一个新的状态。
我们可以看看 Sora 缺了什么?最显著的缺陷是动作信息(action)的缺失。视频模型能够呈现观测(observation)到观测(observation)的转变,但未包含这些变化背后的具体动作信息和状态(state)变化。缺乏对动作的了解,妨碍了我们对状态间关系的理解,同时也限制了对未来状态的预测能力。因此,动作信息的缺失是视频生成技术在构建完整世界模型方面的主要挑战。这也是为什么 LeCun 说 Sora 不是世界模型。
BV:现在具身智能的实现有什么瓶颈吗?我们直观的会感觉中美之间的 AI 发展有一些差距,在具身智能领域是不是差距也很大?
赵行:我们还是从算法、数据、算力这三个角度来看。
算法的话,国内有很多优秀的研究人员提出了非常多领先的算法,比如有像 CoRL 这样顶级机器人会议上拿 Best Paper 的。这个方面我们没有本质的差距。
从数据来看,本体和数据是紧密相关的。中国的机器人制造能力非常强,然后我觉得机器人数据采集的能力也不是特别大的问题。
从算力来看,具身智能还没有到规模化模型训练的阶段,算力当前不构成瓶颈,而且刚才也提到具身智能最终对于算力的需求不会像自然语言模型这么大,所以说在做具身智能这个事情在中国是有巨大机会的。
BV:刚才提到了具身智能 scaling law 的几个条件,算法和算力比较清晰,但是大规模的数据应该怎么获取?
学术界具身数据有几个主要来源:互联网、仿真器、人为遥控。互联网数据刚才说过了,缺失了关键的动作信息;仿真器产生的数据和真实环境有很大 gap,且流体、软体等物体并无法仿真;遥控的数据真实性高,但无法大规模获取。这几种方法各有利弊。除此之外,我还有一个预判,就是规模化的产品部署能带来海量的高质量真实数据,这会是具身智能重要的数据来源。现成的例子就是大规模部署的智能汽车所采集到的数据大幅推动了自动驾驶的进展,未来的机器人也会是如此,只做 Demo 是不可行的。
03 未来预测
是画技术大饼?还是找到科研与商业转化中的关键问题?
BV:Sora 发布、Figure 融资,各媒体机构都在鼓吹 AGI 即将到来,这是不是技术大饼?如何真正去预测技术的未来?
赵行:技术未来不是靠画饼实现,是需要去定义真正有价值的技术问题。
我觉得 Scaling law 的重要程度已经不亚于摩尔定律。OpenAI 定义了能超越人类的语言 AGI 模型是什么样子的,并且预测多久实现。他们发现:如果把 SAT、GRE 等人类考试作为人类智能的 benchmark。随着模型增大、计算量增多、数据增多,AI 智能就能够超越人类的智能。这是 OpenAI 定义问题、预测技术发展的能力的体现。在此之前,大家很难去定义 AGI 到底是什么,我们应该朝什么方向发展,AGI 什么时候到来。
人类场景下的各种需求是广泛客观存在的,不需要被定义的。但是,如何把这些场景需求定义为一个个技术问题,这就是考验。具体到具身智能方向,大家都在跟着特斯拉、Waymo,作为从业者我就一直在问自己:为什么我们不能引领这个方向,定义里面的技术问题?
BV:AI进化是一场独立机构之间的抗衡?还是全人类的共同游戏?全行业如何协作起来?
赵行:当前看来是大企业之间的抗衡,但长久来看,是人类共同的游戏。目前来看一些大企业的强大是因为通过过去二十年的互联网的发展,把文本、图像、视频等数据已经收集到了自己手中,由此去训练大模型等工作。数据是 AI 的三要素之一,所以他们能通过已经积累的数据创造出比较强大的 AI。
但肉眼可见,未来的数据获取难度越来越高,数据安全性的重要性也越来越高。往后看,随着数据稀缺、数据平权等问题的出现,全行业开展合作才能推动 AI 往前走。纽约时报起诉 OpenAI 这个事件也可以看出,数据来源的重要性。
04 科研号召
Open AI 团队启发——做技术的长期主义者
BV:什么样的团队更容易找到具身智能的 Scaling Law?
赵行:首先对于个人来说,必须得是技术的长期主义者,不因为短期的利益而放弃长期的技术理想。
其次,作为一个团队既要能“自下而上”提出创新想法,又能“自上而下”来推动规模化创新。高校做的创新大多都是“自下向上”的:每位老师每个学生都可以提出想法,开始一个项目。而在产业界,很多企业创新都是“自上向下”,既老板指明创新方向。
OpenAI 的模式是,在统一的观念支撑下 ,即 scaling law,既保持“自下向上”的探索,在探索了一段时间后,会把不太有希望的工作砍掉,完成“自上向下”的筛选,专注于更有价值的项目,之后给予充分的资源支持它的发展。
那么我们也要通过学术界和工业界的积极互动,打造这样的团队氛围。
BV:技术大咖(像是您)可以提出技术长期主义,但是青年学者如何坚持技术长期主义?
赵行:这个问题特别有挑战性。学术界来看,首先一个背景就是,国内的科研评价体系并不是那么完善,我们的论文数量是全世界最多的,但影响力不足。在这个情况下,最应该首先做出改变的就是已经处于头部的院校和科研团队。从去年 ChatGPT 出来之后,我就跟同学们强调,不再推崇论文数量,而是要保证研究的质量。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。