物理智能推出机器人基础模型Pi-Zero

Physical Intelligence 发布机器人通用AI基础模型 π0 (pi-zero)

Physical Intelligence 公司最近发布了 π0 (pi-zero),这是一个专为机器人设计的通用AI基础模型。π0 基于预训练的视觉语言模型(VLM),在五项机器人任务评估中表现优于其他基线模型。

π0 的技术基础与训练数据

π0 基于 PaliGemma VLM,并进一步在从7种不同机器人执行的68项任务中收集的自定义数据集以及 Open X-Embodiment 数据集上进行训练。最终的模型能够接受自然语言指令并“以基本熟练度”执行任务。研究人员将 π0 的性能与 OpenVLA 和 Octo 两个基线模型进行了比较,π0 在包括叠衣服和收拾桌子等五项任务中表现出了“显著改进”。

机器人基础模型的研究前沿

Physical Intelligence 提到,机器人基础模型的研究前沿包括长期推理与规划、自主自我改进、鲁棒性和安全性。他们预计未来一年这些方向将取得重大进展,初步结果展示了机器人基础模型的潜力:具备高度能力的通用策略,继承了互联网规模预训练的语义理解,整合了来自不同任务和机器人平台的数据,并实现了前所未有的灵巧性和物理能力。

π0 的架构与工作方式

π0 的架构受到 Transfusion 模型的启发,Transfusion 是由 Meta 和 Waymo 创建的模型,处理离散和连续数据的令牌。π0 具有一个独特的模块,称为“动作专家”,用于处理机器人特定的输入输出。模型的输入包括视觉图像、机器人关节角度和语言指令,输出是机器人动作令牌序列。

复杂任务的处理

对于某些复杂任务,人类操作员的语言指令首先被输入到一个高级VLM中,该模型将其分解为一系列更简单的任务,类似于 SayCan 模型的做法。研究人员发现,这种方案在诸如摆桌子等任务中提高了性能。当人类操作员给机器人一系列更简单的指令时,也发现了类似的改进。

关于 π0 的问答与评价

Physical Intelligence 的联合创始人 Karol Hausman 在 X 上回答了几个关于模型的问题,确认他们的演示视频没有脚本或远程操控。当被问及为什么选择叠衣服作为评估模型的任务时,他列举了叠衣服的多个优点,如易于理解、重置简单、可以任意延长任务长度以及易于生成多样化数据。

Andrew Ng 的 The Batch 通讯对 π0 进行了讨论,称其团队成员将 π0 比作机器人领域的 GPT-1,预示着未来的发展。尽管文本数据(数量庞大)和机器人数据(难以获取且因机器人而异)之间存在显著差异,但大型机器人基础模型的新时代似乎正在到来。

其他公司的多模态基础模型

其他大型公司也在开发多模态基础模型。今年早些时候,InfoQ 报道了 NVIDIA 的 GR00T 模型,该模型基于视频、文本和真实机器人演示进行训练。去年,InfoQ 还报道了 Google 的 PaLM-E 模型,该模型结合了 PaLM 和 Vision Transformer (ViT) 模型,用于控制机器人,以及 Google DeepMind 的 Robotics Transformer 2 (RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)AI模型。

阅读 45
0 条评论