Google 推出 PaLM-E:结合 PaLM 和 Vision Transformer 的机器人控制模型
Google Robotics 团队最近发布了 PaLM-E,这是一个结合了 PaLM 和 Vision Transformer (ViT) 的模型,旨在控制机器人。PaLM-E 能够处理来自机器人传感器的多模态输入数据,并输出文本指令来控制机器人的执行器。除了在多项机器人任务中表现出色外,PaLM-E 还在 OK-VQA 基准测试中超越了其他模型。
PaLM-E 的核心技术
PaLM-E 通过将多模态传感器数据融入大语言模型(LLM)的输入中,解决了 LLM 的“接地”或“具身化”问题。这些输入首先通过编码器映射到 LLM 用于语言输入的嵌入空间,生成包含文本和其他数据的“多模态句子”。PaLM-E 随后生成文本输出,例如对输入问题的回答或机器人的高层指令。
Google 表示,PaLM-E 突破了通用模型的训练边界,使其能够同时处理视觉、语言和机器人任务,并将视觉和语言领域的知识转移到机器人领域。这不仅为构建更强大的机器人提供了路径,还可能成为多模态学习的广泛应用的关键推动力,包括统一迄今为止看似分离的任务。
基于 PaLM 的模型架构
PaLM-E 基于预训练的 PaLM 语言模型,机器人传感器数据被注入到文本输入中。例如,模型可以处理类似“What happened between <img_1> and <img_2>?”的输入问题,其中“img_1”和“img_2”是由 ViT 编码的图像,并映射到与文本输入标记相同的嵌入空间。在这种情况下,模型的输出将是对问题的回答。Google 为多种输入模式创建了编码器,包括机器人状态向量(如 3D 姿态信息)、3D 场景表示以及机器人环境中物体的实体引用。
评估与性能
研究人员通过使用 PaLM-E 控制模拟和现实世界中的机器人来评估其性能。机器人执行了多项任务,包括抓取和堆叠物体、在桌面环境中推动物体,以及在厨房环境中由移动机器人进行操控。PaLM-E 能够为机器人构建“长时程”计划,并在桌面推动任务中泛化到训练中未见的物体。在厨房环境中,机器人即使在对抗性干扰下也能完成长时程任务。
社区讨论
在 Hacker News 的讨论中,一些用户对 PaLM-E 的表现提出了疑问。一位用户询问模型性能是否随着参数数量的增加而提升。另一位用户回应称,性能确实会随着参数的增加而提升,尽管不是线性的。Google 在 Chinchilla LLM 的研究中发现,性能还随着训练集规模的增加而提升。他们能够定义出模型在给定规模下的最佳训练量,以最大限度地利用预算。因此,即使没有找到更好的模型架构(未来可能会找到),通过增加模型规模、训练语料和预算,模型的性能仍将继续提升。
演示视频
PaLM-E 网站提供了多个由该模型控制的机器人执行任务的演示视频,展示了其在实际应用中的潜力。
总结
PaLM-E 是 Google Robotics 团队在机器人控制领域的一项重要创新,通过结合多模态数据和 LLM 技术,展示了其在复杂任务中的强大能力。其开源和多模态学习的潜力,可能为未来机器人技术和人工智能的发展带来深远影响。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。