关注前沿科技 量子位
与3D物理环境交互、适应不同机器人形态并执行复杂任务的通用操作策略,一直是机器人领域的长期追求。
现有的通用操作模型局限于2D输入,缺乏鲁棒的3D感知能力,在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的通用性。
而人类具有通用且结构化的空间认知能力,能够在不同的场景中精细准确的操作物体。因此,当前领域的一个关键问题是如何有效地为VLA模型赋予通用的3D物理世界空间理解能力?
来自上海AI Lab、TeleAI、上科大等机构的研究员提SpatialVLA——
百万真机数据预训练的空间具身通用操作模型,全面探究了空间表征在具身通用操作模型中的潜力,在zero-shot泛化控制、场景高效微调、空间理解等多项评估中取得了最先进的性能。
通用操作策略面临的挑战
近期视觉-语言-动作模型的进展为构建此类通用策略提供了有前景的范式,特别是通过在多样化机器人数据上训练视觉-语言模型。相关的最新研究包括OpenVLA、RDT、π0等。然而现有的VLA模型大多局限于2D输入,缺乏稳健的3D感知能力,且在面对单视角视差差距、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的可靠性。人类本能地形成结构化的空间认知模型,轻松地在直观且个性化的工作空间中组织物体进行操作。
因此,当前领域的一个关键问题是如何有效地为VLA模型赋予通用的3D物理世界空间理解能力?
然而,开发具有3D空间智能的通用机器人策略面临两个关键挑战:
首先,由于相机传感器和安装位置(例如腕部安装与第三方视角)不同,机器人在各个形态下的观察数据缺乏3D对齐,造成了3D观察空间未同一校准的。
其次,机器人表现出多样的动作特性,源自自由度、运动控制器、工作空间配置和任务复杂性的差异,使得学习通用空间动作变得复杂。
空间具身通用操作模型
为应对以上挑战,本文提出了一个通用机器人策略SpatialVLA,通过探索对齐的空间表示,将VLA模型赋予3D空间智能。给定图像观察和任务指令,模型利用Ego3D位置编码处理图像,并自回归地预测空间动作token,随后解码为连续动作At进行机器人控制:
- Ego3D Position Encoding: SpatialVLA通过Ego3D位置编码感知3D世界,将3D空间上下文与语义特征融合,消除了对特定机器人相机校准的需求,具有广泛的适用性。
- Adaptive Spatial Action Grids:对于机器人动作,SpatialVLA采用自适应动作网格统一动作空间,将连续动作离散化为基于机器人任务数据的自适应网格,使得不同机器人之间的动作与物理世界的3D结构对齐。
- Spatial Embedding Adaption: 在后训练中,空间动作网格通过自适应网格重新离散化,展现了在新机器人环境中适应的卓越能力,提供了一种灵活且有效的机器人特定后期训练方法。
具体来说,对于给定一个图像观察 和任务指令 L,模型通过Ego3D位置编码处理图像,并自回归地预测空间动作token,随后将这些token解码为连续动作 At 用于机器人控制。
该模型包含三个关键组件:(1)SigLIP视觉编码器提取2D语义特征,随后通过Ego3D位置编码将其与3D空间上下文相融合;(2)连续的7D动作 ΔT,ΔR, G 通过查询自适应动作网格转化为3个空间动作token,并自回归地预测并解码以用于机器人控制;(3)在后期训练中,动作网格和空间嵌入根据新的高斯分布进行调整,以便有效地迁移到全新的机器人平台。
团队发现,所提出的SpatialVLA模型以通用且与机器人无关的方式桥接了观察输入和动作输出,探索强大的3D空间感知表示,从而增强了VLA模型的鲁棒性与通用性。
实验验证
团队在7种不同的机器人学习场景中评估SpatialVLA的能力,包括24个真实机器人任务和3个仿真环境Simpler Env Google Robot、Simpler Env WidowX、LIBERO。
重点考察模型的三个关键能力:zero-shot泛化控制、新场景高效微调和空间理解能力。同时,团队还进行了详细的消融研究,验证了设计决策。模型在多项评估中取得了最先进的性能。
1. zero-shot泛化控制
SimplerEnv Benchmark SOTA性能:包含WidowX和Google机器人配置,提供多样的操作场景,并涵盖不同的光照、颜色、纹理和机器人摄像头位姿。团队将模型与最新的通用操作策略进行比较,包括RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA和RoboVLM等。
SpatialVLA在zero-shot和微调setting中均表展示了更强的泛化能力和鲁棒性,尤其在具有外观多样的机器人操作任务和环境条件下。
对于WidowX配置,SpatialVLA超越了RoboVLM,取得了34.4%和42.7%的整体成功率。在BridgeV2数据集上微调后,在“将茄子放入黄色篮子”任务中达到了100%的成功率,显示了模型出色的零样本泛化操作能力。
△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.
△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.
WidowX机器人平台开箱即用:团队还在真实的WidowX机器人平台上进行实验,涵盖语言绑定、语义理解和运动干扰等任务。总体而言,SpatiaVLA在未见过的场景、物体、语言绑定和动态动作中表现出了较高的平均成功率,能够根据提示中的颜色描述准确地执行任务,超越了OpenVLA和其他通用策略展示了强大的泛化能力操作和指令跟随能力。
△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.
2.新场景高效微调
Franka高效微调,LIBERO Benchmark SOTA性能:团队在13个Franka机械臂平台上 从1)拾取、放置、推拉和关闭基本任务;2)指令跟随;3)混合多任务三个角度来验证模型的操作性能,与主流策略(包括Diffusion Policy、Octo和OpenVLA)进行比较。
评估结果展示了其作为通用机器人控制策略的多功能性,在多种任务中表现出色,并可有效作为新机器人微调的初始化。同时SpatialVLA能够有效适应LIBERO环境中的任务,取得了78.1%的最高平均成功率,并在所有无state输入的策略中排名第一。
△Figure 4. Adapting to New Robot Setups on Franka Robot.
△Figure 5. LIBERO Simulation Benchmark Results.
3.空间理解能力评估
团队从三类机器人设置评估的空间理解能力:Franka机器人微调, WidowX机器人零样本泛化,以及Libero-Spatial微调。任务展示了不同的空间复杂性,任务涉及提示理解,深度变化感知,物体布局变化。与现有策略相比,SpatialVLA展现了优越的空间理解能力,在Franka任务#1中取得了73%的准确率,显著提升了在WidowX零-shot任务(任务#2-4)中的操作能力,尤其是在复杂的位置变化上。在LIBERO-Spatial任务中,SpatiaVLA取得了88.2%的成功率。像Octo、Diffusion Policy和OpenVLA等策略,由于缺乏深度信息的集成,在适应空间布局变化时面临较大挑战,其成功率始终低于50%。因此,团队建议将3D信息,如深度或点云,集成到VLA框架中,以提高模型在空间布局变化中的适应性和鲁棒性。
△Figure 6. Spatial Understanding Capability Evaluation.
目前项目已全面开源,轻松支持下载部署、预训练和高效微调。
Huggingface: https://huggingface.co/collec... 训练代码: https://github.com/SpatialVLA... 项目主页: https://spatialvla.github.io 论文地址: https://arxiv.org/abs/2501.15830
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文/项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 👇 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。