编者荐语:
Datawhale分享。
以下文章来源于数字开物 ,作者数字开物
[
数字开物 .
数字开物是一家专注数字基础设施领域的专业媒体服务平台,旨在探索前沿数字科技与产业数字化转型,通过对话权威专家学者、优秀企业代表,以数字产业为独特视角,分享产业观点、深度洞察产业数字化变革与趋势。
](#)
6月4日,World Labs联合创始人兼首席执行官李飞飞与a16z普通合伙人及该公司早期投资者Martin Casado,参与了由a16z普通合伙人Erik Torenberg主持的一场访谈,共同探讨了“世界模型”这一概念,以及构建“世界模型”的迫切需求,本次对话深入剖析了当前AI的局限性、“世界模型”背后的基本原则,以及实现路径。
World Labs的起源:共同愿景与AI的物理根基
李飞飞与Casado的合作以及World Labs的创立,源于双方对AI当前局限的共识和对其未来方向的共同愿景。这种伙伴关系凸显了应对AI重大挑战需要深度、跨学科的专业知识。
Martin Casado首先强调了李飞飞对该领域的奠基性贡献:“是Fei-Fei真正将数据的概念引入了这一领域,而我们现在认识到,数据实际上可能是其中更宏大、也更有趣的部分。因此,她确实是大家公认的‘AI教母’。”
对于李飞飞而言,选择Casado作为World Labs的首位投资者,是出于对超越资本的深层需求的战略考量。李飞飞表示:“我尤其还在寻找一位能够进行思想碰撞的智力伙伴。我们在World Labs从事的是非常前沿的硬核科技,我需要一位计算机科学家,一位人工智能领域的探索者,他要深刻理解产品、市场、客户以及市场推广策略,并且能够随时随地通过电话或面对面的方式,与我进行深度的智力交流。”
Casado回忆道,在一场大语言模型的晚宴上,每个人都对大语言模型表现出极大的热情,都在讨论语言。而我当时因为处理过大量图像摄取工作,已经独立地得出了一个结论:故事远未结束。Fei-Fei对我说:‘我们忽略了什么?’我问:‘忽略了什么?’她说:‘我们忽略了世界模型。’我心想:‘正是如此!’”李飞飞对此补充道,她已为“世界模型”的构想思考多年,并与各界人士进行过广泛交流,但“坦白说,大多数人并没有真正理解。”直到她邀请Casado到斯坦福喝咖啡,并请他描述所理解的“世界模型”时,Casado所阐述的——一个能够真正理解世界的三维结构、形状及其组成性的人工智能模型,这与她的想法完全一致,让她确信找到了那个“唯一一个真正理解了的人”。
解构AI路径:语言、数据与物理世界的必然性
在反思AI的发展轨迹时,李飞飞和Casado都指出了其中一些出人意料的进展,并强调了为何当前的主流范式,特别是LLMs,虽功能强大,却不足以实现全面的智能。
李飞飞坦言,即便作为将数据引入AI世界的人,她至今仍然对那些“极度依赖数据的模型,即数据驱动的人工智能,能够发展到如此地步,并且真正展现出思维机器令人难以置信的涌现行为,持续感到一种发自内心的惊讶。”
至于为什么还要再创立一家基础模型公司,去构建“世界模型”?李飞飞的核心理念在于,她的学术探索之旅始终围绕着那个“如同北极星般指引方向的核心问题”。她指出:“语言固然是一种极其强大的思想与信息编码方式,但它在描述所有动物及生命体赖以生存的三维物理世界方面,其实并非一种强大的编码。”她认为,人类智能的绝大部分都超越了语言范畴,语言在捕捉和描绘真实世界时是一种“有损的途径”,且其本质是“纯粹是生成性的”,自然界中本不存在固有的音节或词汇。相反,“整个物理的、感知的、视觉的世界却真实存在。”
动物的全部进化史,都深深植根于海量的感知智能,并最终发展出具身智能。至于人类,我们不仅依赖这些智能生存、生活、工作,更在此基础上,通过构建和改造世界,建立了璀璨的文明。
李飞飞意识到时机已经成熟,要想将这一愿景化为现实,集中化的、工业级别的努力,尤其是在算力、数据和人才方面的专注投入,才是真正的解决之道。这便是她创办 World Labs 的初衷。
Casado则通过一个形象的思想实验,阐释了语言与空间感知的根本差异。他设想,如果将人带入一个房间,蒙上眼睛,仅凭口头描述去完成一项任务,其成功的可能性会非常小,因为语言描述对于传达复杂且要求高准确度的现实而言,是“极其不精确的”。然而,一旦摘掉眼罩,允许亲眼观察,大脑便会进行三维重建,从而能够自如地操作物体。他总结道:“我们确实进行了大量的语言处理,并用其进行交流、传递高层次概念等。但在涉及真实世界导航时,我们根本上依赖的是世界本身,以及我们自身重建这个世界的能力。
他还指出了AI发展中一个与直觉相悖的现象。他指出,尽管物理世界的导航和空间感知(如自动驾驶汽车领域,已投入上千亿美元和近二十年时间)在生物进化史上更为古老和基础,但反而是进化历史相对较短的语言处理能力,在AI领域率先成熟并展现出惊人的商业可行性。
“我们大脑中负责处理语言的部分,其进化历史相对较短,因此我们处理语言的效率其实并不高。所以,计算机在这方面做得更好,并不那么令人惊讶。但是,大脑中负责导航的部分,即空间感知的部分,已经存在了非常非常久,堪称百万年进化史的结晶。”
李飞飞甚至追溯到更为久远的三叶虫时代,指出其已拥有大脑。Casado认为,AI的发展“几乎像是在重演进化的历程”,语言部分对于高层次概念和白领工作至关重要,而空间理解——从机器人到任何物理实体的构建则是下一个必须攻克的难题。
幸运的是,当前的AI技术浪潮,特别是生成式AI的兴起,似乎为解决这一棘手的空间理解问题带来了新的曙光。李飞飞也表示,看到ChatGPT等大语言模型的巨大成功,反而激励了她们,让她们意识到“实现世界模型的时刻日益临近”。
世界模型的应用蓝图与研究基础
那么,当“世界模型”这一愿景真正得以实现,它将如何改变我们的世界,又能催生哪些具体的应用呢?李飞飞首先点出:“创造力在很大程度上是视觉性的。”她列举了设计、电影、建筑到工业设计等广泛领域,这些无不高度依赖视觉、感知和空间能力。紧接着,她提到了机器人技术,并将其广义地定义为“任何能够与环境交互的实体机器”,这些机器都必须以某种方式理解它们所处的三维空间,并与人类协作。
更进一步,李飞飞展望了一个更为宏大的未来:“借助这项技术——它是生成与重建的结合,我们突然之间就能创造出无限的宇宙。有些宇宙专为机器人设计,有些服务于创造力,有些用于社交,有些用于旅行,还有些则用于叙事。这项技术将使我们能够以一种多元宇宙的方式生活。”
Casado则将这些看似抽象的对话具体化。他解释道,这些模型能够从单一或多个二维视图(如一张照片)在计算机中生成一个完整的、可供后续操作的三维表示,甚至包括视野之外的部分,如桌子的背面。这种能力意味着可以操控、移动、测量、堆叠物体,乃至生成原本不存在的内容,例如从一张二维图片创造出360度全景。显然,这将深刻影响视频游戏、创意设计、艺术创作乃至更广泛的物理模拟和交互领域。
这些应用前景背后,存在一个根本性的问题:为何对世界的理解和重建必须是三维的?
李飞飞解释道:“物理规律在三维空间中发生作用,互动行为也在三维空间中展开。导航到桌子背面需要在三维空间中进行。构建世界,无论是物理世界还是数字世界,都必须在三维空间中完成。”
Casado也从计算机程序的角度补充,对于许多与空间相关的任务,机器人或程序需要明确的三维信息才能进行导航和操作,因为关键的深度信息(Z轴)在二维图像中是缺失的。人类大脑可以将二维视频重建为三维场景,但计算机程序则需要直接的三维输入。
为了更生动地阐释这一点,李飞飞分享了一段经历。大约五年前,她因角膜受伤而短暂失去了几个月的立体视觉,这意味着她当时是用一只眼睛看世界。“我变得非常害怕开车,”她回忆道,“即使只是在我家附近的社区里开车,我也意识到自己很难准确判断我的车与停在路边的车辆之间的距离……我不得不把车速降到非常非常慢。”也从侧面印证为何AI若要真正理解并驾驭世界,三维感知能力是不可或缺的一环。
尽管“世界模型”的概念听起来比大语言模型更为前沿,但其研究并非从零开始。李飞飞介绍,计算机视觉作为一个学科,一直在进行各方面零散的探索和积累。例如,三维计算机视觉领域的重要革新——神经辐射场,正是由World Labs的联合创始人Ben Mildenhall及其同事完成的。另一位联合创始人Christoph Lasinger的开创性工作,则推动了高斯泼溅表示法(Gaussian Splatting representation)作为有效三维场景表示方法的再次流行。此外,曾为李飞飞学生的联合创始人Justin Johnson,在Transformer问世之前,就在图像生成领域(如生成对抗网络GANs和风格迁移)做出了大量基础性工作,这些都构成了当前研究的核心组件。
正是在这些学术积累和技术突破的基础上,World Labs得以汇聚全球在计算机视觉、扩散模型、计算机图形学、优化、AI以及数据等领域最顶尖的人才。“所有这些人组成一个紧密的团队,共同努力将这项技术实现并最终产品化,”李飞飞强调。
Casado也从旁观者的角度评价了这种团队构建的必要性与挑战性:“我必须说,从一个旁观者的角度来看,要解决这个复杂的问题,既需要AI领域的专家,也需要图形学领域的专家,需要一个具备这种跨学科能力的非常特殊的团队才能真正攻克这个难题,而Fei-Fei已经成功地组建了这样一支团队。”
一起“点赞”三连↓
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。