谷歌的PaLM-E结合视觉与语言AI实现机器人控制

Google 推出 PaLM-E：结合 PaLM 和 Vision Transformer 的机器人控制模型

Google Robotics 团队最近发布了 PaLM-E，这是一个结合了 PaLM 和 Vision Transformer (ViT) 的模型，旨在控制机器人。PaLM-E 能够处理来自机器人传感器的多模态输入数据，并输出文本指令来控制机器人的执行器。除了在多项机器人任务中表现出色外，PaLM-E 还在 OK-VQA 基准测试中超越了其他模型。

PaLM-E 的核心技术

PaLM-E 通过将多模态传感器数据融入大语言模型（LLM）的输入中，解决了 LLM 的“接地”或“具身化”问题。这些输入首先通过编码器映射到 LLM 用于语言输入的嵌入空间，生成包含文本和其他数据的“多模态句子”。PaLM-E 随后生成文本输出，例如对输入问题的回答或机器人的高层指令。

Google 表示，PaLM-E 突破了通用模型的训练边界，使其能够同时处理视觉、语言和机器人任务，并将视觉和语言领域的知识转移到机器人领域。这不仅为构建更强大的机器人提供了路径，还可能成为多模态学习的广泛应用的关键推动力，包括统一迄今为止看似分离的任务。

基于 PaLM 的模型架构

PaLM-E 基于预训练的 PaLM 语言模型，机器人传感器数据被注入到文本输入中。例如，模型可以处理类似“What happened between <img_1> and <img_2>?”的输入问题，其中“img_1”和“img_2”是由 ViT 编码的图像，并映射到与文本输入标记相同的嵌入空间。在这种情况下，模型的输出将是对问题的回答。Google 为多种输入模式创建了编码器，包括机器人状态向量（如 3D 姿态信息）、3D 场景表示以及机器人环境中物体的实体引用。

评估与性能

研究人员通过使用 PaLM-E 控制模拟和现实世界中的机器人来评估其性能。机器人执行了多项任务，包括抓取和堆叠物体、在桌面环境中推动物体，以及在厨房环境中由移动机器人进行操控。PaLM-E 能够为机器人构建“长时程”计划，并在桌面推动任务中泛化到训练中未见的物体。在厨房环境中，机器人即使在对抗性干扰下也能完成长时程任务。

社区讨论

在 Hacker News 的讨论中，一些用户对 PaLM-E 的表现提出了疑问。一位用户询问模型性能是否随着参数数量的增加而提升。另一位用户回应称，性能确实会随着参数的增加而提升，尽管不是线性的。Google 在 Chinchilla LLM 的研究中发现，性能还随着训练集规模的增加而提升。他们能够定义出模型在给定规模下的最佳训练量，以最大限度地利用预算。因此，即使没有找到更好的模型架构（未来可能会找到），通过增加模型规模、训练语料和预算，模型的性能仍将继续提升。

演示视频

PaLM-E 网站提供了多个由该模型控制的机器人执行任务的演示视频，展示了其在实际应用中的潜力。

总结

PaLM-E 是 Google Robotics 团队在机器人控制领域的一项重要创新，通过结合多模态数据和 LLM 技术，展示了其在复杂任务中的强大能力。其开源和多模态学习的潜力，可能为未来机器人技术和人工智能的发展带来深远影响。