视觉 - 运动映射模型作为实现智能交互与精准行动的核心,吸引着全球科研人员与技术爱好者的目光。这一模型就像机器人的 “神经中枢”,连接着视觉感知与肢体运动,使机器人能够在复杂的现实环境中灵活应对各种任务。
传统的视觉 - 运动映射模型训练方法存在局限性,难以满足具身智能机器人日益增长的需求。随着研究的深入,创新训练方法不断涌现,为机器人的智能化发展注入新的活力。
大规模数据为迁移学习提供了坚实基础。微软提出的图像目标表示(IGOR)便是一个典型例子。IGOR从互联网规模的视频数据中学习,将人类与现实世界的交互数据 “投喂” 给模型 ,从而直接为人类和机器人学习一个统一的动作表示空间,实现跨任务和智能体的知识迁移。在训练具身智能领域的基础模型时,高质量带有标签的机器人数据成本高昂,而互联网视频中丰富的人类活动数据为解决这一问题提供了新思路。
IGOR框架通过潜在动作模型(LAM)将初始状态和目标状态之间的视觉变化压缩为低维向量,并通过最小化初始状态和动作向量对目标状态的重建损失来进行训练。这使得具有相似视觉变化的图像状态在语义空间而非像素空间上具有相似的动作向量,大大扩展了具身智能基础模型能够使用的数据量。这个统一的潜在动作空间让研究团队可以在几乎任意由机器人和人类执行的任务上训练策略模型(Policy Model)和世界模型(World Model),实现了机器人对人类动作的模仿,以及跨任务和跨智能体的动作迁移。
UC伯克利团队研发的VideoMimic系统为机器人训练开辟了新路径。它能将视频动作迁移到真实机器人,让宇树G1机器人成功模仿了100多段人类动作。VideoMimic的核心原理是从视频当中提取姿态和点云数据,然后在模拟环境中训练并最终迁移到实体机器人。
其工作流程主要包括三个关键步骤:首先是从视频到仿真环境的转换,利用人体姿态估计和场景重建方法,从单目RGB视频中获取人体三维姿态和稠密场景点云,并经过一系列处理和优化,将人体运动重定向到机器人模型;接着在仿真环境中训练策略,通过四个渐进阶段,让策略网络能够克服视频重建中的噪声,根据环境感知做出对应的运动控制,最终得到一个泛化能力较强的控制策略;最后将策略迁移到实体机器人,通过对机器人硬件的配置和环境感知信息的处理,实现策略模型在真实机器人上的实时推理和运动控制 。这种方法让机器人通过观看人类日常活动视频,学会了行走、爬楼梯、坐下、站立等复杂动作,有效降低了训练成本。
德克萨斯大学奥斯汀分校和NVIDIA Research的朱玉可团队提出的OKAMI方法,基于单个RGB-D视频生成操作规划并推断执行策略,让双手型人形机器人能够模仿人类操作行为 。OKAMI采用两阶段过程,第一阶段处理视频并生成参考操作规划,第二阶段使用该规划来合成人形机器人的运动。
在规划生成阶段,OKAMI利用视觉 - 语言模型(VLM)GPT-4V识别视频中与任务相关的物体,并结合其他模型分割和跟踪物体位置。同时,采用改进版的SLAHMR重建人类运动轨迹,获取全身和手部姿势的SMPL-H模型序列,从而将人类动作重新定向到人形机器人。在模仿阶段,机器人遵循参考规划中的步骤,通过分解式重新定位过程,分别合成手臂和手部运动,适应新的物体位置,实现精细操作。实验表明,OKAMI在日常取放、倾倒和操纵铰接物体等任务中表现出色,能够有效地泛化到不同的视觉和空间条件。
虚拟动力惯性动作捕捉技术能够精准记录人体运动轨迹、姿态、关节角度等数据,为机器人学习模型提供高质量训练数据集。通过真人穿戴惯性动捕设备,将动作实时映射到机器人本体,生成高精度数据集。这种方式可以较低成本快速生成海量数据,助力机器人从 “机械执行” 向 “自主决策” 进化 。动作捕捉技术就像是给机器人提供了一个直观的学习模板,让机器人能够快速掌握复杂的人类技能,极大地丰富了机器人的动作库和行为模式。
具身智能机器人的视觉 - 运动映射模型创新训练方法正不断拓展机器人的能力边界。从大规模数据的迁移学习到视频模仿学习,从基于视觉 - 语言模型的物体感知型模仿到动作捕捉技术驱动的训练,每一种创新方法都为机器人在复杂环境中实现更加智能、灵活和精准的行动提供了可能。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。