具身抓取研究综述

编辑：陈萍萍的公主@一点人工一点智能

论文链接：https://www.mdpi.com/1424-8220/25/3/852

01 引言

具身抓取是机器人执行物理交互任务的核心基础。随着预训练模型在感知、推理和交互领域的突破，其在机器人抓取任务中的应用显著推动了该领域的发展。本文从具身基础、具身感知、具身策略和具身Agent四个维度系统梳理了最新进展。引言部分强调了预训练模型如何通过大规模数据学习先验知识，帮助机器人理解环境意图并提升动态环境下的自适应能力。例如，视觉基础模型（VFMs）通过点云提取和3D重建增强环境理解，而大语言模型（LLMs）则优化了自然语言指令的解析能力。

作者指出，传统机器人研究在视觉操控、强化学习和模仿学习等方面受限于数据稀缺与泛化能力不足。预训练模型通过特征提取、数据增强和奖励函数生成等机制，为解决这些问题提供了新思路。例如，在模仿学习中，预训练模型可作为特征编码器，提升模型对新场景的适应性；在强化学习中，通过语言模型生成任务相关的奖励函数，减少人工设计的依赖。这些技术突破为机器人抓取的智能化奠定了基础。

02 具身基础

具身基础部分系统总结了机器人硬件平台、仿真环境、数据集和采集方法。硬件平台涵盖机械臂、末端执行器（如两指夹爪和灵巧手）、移动复合机器人（如轮式机械臂组合）和人形机器人。以Franka、xArm系列为代表的机械臂在工业与农业场景广泛应用，而仿真平台如Gazebo、PyBullet和Isaac Sim则降低了算法验证成本。值得注意的是，仿真与真实环境的差异（Sim2Real Gap）仍是主要挑战，例如摩擦力和碰撞动力学的建模不足。公开数据集（如BridgeData V2、GraspNet-1Billion）和采集方法（如远程操作与动作捕捉）为算法训练提供了丰富资源。数据采集的低成本化趋势显著，例如ALOHA系统通过远程控制在模拟环境中生成数据，降低了人工标注成本。然而，现有数据集在物体多样性（如透明或柔性物体）和复杂场景覆盖上仍有局限，制约了模型的泛化能力。

03 预训练模型

预训练模型章节详细梳理了五类模型的发展脉络：
1）大语言模型（LLMs）：从BERT、GPT到GPT-4，模型通过自监督学习积累通用语义知识。GPT-4通过链式思维（Chain-of-Thought）实现了复杂推理，显著提升了任务分解和代码生成能力。例如，Eureka框架利用GPT-4生成可执行的奖励函数代码，优化强化学习策略。
2）视觉基础模型（VFMs）：DINOv2和MAE通过掩码自编码器学习鲁棒视觉特征，SAM模型支持开放词汇分割。这些模型在点云处理和3D重建中发挥关键作用，例如SAM2通过视频数据训练提升了分割精度和速度。3）视觉语言模型（VLMs）：CLIP通过对比学习对齐图像与文本特征，BLIP-2引入课程学习策略增强多模态理解。CLIPORT模型融合语义流与空间流，实现了语言引导的抓取策略生成。
4）生成大模型（GLMs）：扩散模型（如Stable Diffusion）和DALL-E系列通过可控生成支持数据增强。例如，GenAug利用扩散模型生成多样化的模拟场景数据，缓解真实数据不足问题。
5）机器人领域专用模型（RDSMs）：MVP和R3M通过领域数据微调提升任务适应性。GR-1模型将语言指令与视觉观察结合，直接预测机器人动作，实现了端到端控制。这些模型通过先验知识注入，显著提升了机器人对多模态输入（如视觉、语言）的理解能力。

04 具身感知

具身感知聚焦于机器人通过视觉传感器理解环境并预测抓取姿态。早期研究局限于2D姿态检测（3自由度），而当前主流方法转向6自由度抓取，结合深度信息与点云处理提升精度。例如，VL-Grasp通过两阶段框架：首先利用BERT和ResNet定位目标，再通过点云滤波和姿态检测网络预测最优抓取位姿。
三维特征融合是核心研究方向：
1）语义与几何特征融合：Polarnet和GraspGPT将语言描述与点云特征结合，通过兼容性评估筛选候选抓取位姿。PhyGrasp利用Llama 2编码语言特征，生成抓取热图。
2）点云提取：OVGNet通过GroundingDINO融合图像与文本特征，分割目标点云。
3）功能信息提取：OpenAD通过零样本泛化技术，将功能标签映射到新物体。Ram模型构建功能记忆库，支持跨场景迁移。

三维场景重建通过神经辐射场（NeRF）或3D高斯表示增强几何理解。例如，LERF-TOGO结合CLIP和DINO特征，实现零样本任务导向抓取；GaussianGrasper利用SAM分割先验加速重建。扩散模型（如GNFactor）通过2D语义特征生成3D神经场，提升场景交互理解。

05 具身策略

具身策略分为模仿学习（Imitation Learning）和强化学习（Reinforcement Learning）两类，均依赖预训练模型提升性能。

5.1 模仿学习

模仿学习通过专家轨迹数据训练策略网络，其核心框架是行为克隆（Behavior Cloning, BC）。损失函数定义为：

其中，策略πθ通过最大化专家动作的对数似然进行优化。为提升数据效率，预训练模型的应用分为两类：· 数据增强：GreenAug利用图像生成模型修改交互对象与背景；GenSim通过代码生成模拟专家演示。
· 特征提取：DROID使用DistilBERT编码语言指令，CLIPORT融合视觉与语义特征生成抓取策略。扩散策略（Diffusion Policy）创新性地引入去噪扩散模型，从噪声中生成平滑动作序列。该方法通过梯度场优化动作，提升策略稳定性。

5.2 强化学习

强化学习通过马尔可夫决策过程（MDP）建模，目标为最大化累积奖励：

传统方法依赖人工设计奖励函数，而预训练模型通过两种方式优化：· 奖励函数生成：Text2Reward利用LLMs生成Python代码形式的奖励函数；Eureka通过进化搜索迭代优化奖励设计。· 奖励信号估计：VoxPoser通过视觉语言模型生成3D价值地图，引导运动规划；Diffusion Reward利用专家视频训练生成模型，以条件熵作为奖励信号。

06 具身Agent

具身Agent分为分层执行（Hierarchical Execution）和整体执行（Holistic Execution）两类架构。

1）分层执行
· 低层控制策略：传统控制（如MPC）与策略学习（如强化学习）结合。例如，LMPC利用PaLM 2分解任务，MPC计算关节运动轨迹。
· 技能库：SayCan通过LLMs分解高层指令，调用预定义技能（如“抓取物体”）；VoicePilot通过API函数库实现语音控制。

2）整体执行
· 端到端训练：RT-1和RT-2模型将机器人状态与视觉输入直接映射为动作，支持多任务泛化。
· 视频预测：VLP通过文本生成视频计划，逆运动学模型解析动作序列；Dreamitate利用扩散模型生成任务执行视频，指导机器人模仿。
· 视觉语言模型直接控制：ZSTG通过GPT-4生成密集末端姿态序列，无需预定义技能库。

07 挑战与展望

当前研究面临五大挑战：
· 数据集获取：仿真与真实环境差异、数据多样性与标准化不足。
· 模型适应性：动态环境噪声、任务分解的实时性与计算资源限制。
· 策略泛化性：对特殊材料或形状物体的抓取能力有限，物理常识推理不足。
· 长序列任务执行：任务连续性建模与实时重规划能力待提升。
· 可解释性：复杂模型的决策过程缺乏透明度，多模态特征贡献难以量化。
未来方向包括：
· 开发高保真、低耗能的仿真平台；
· 设计轻量化模型架构与跨模态整合方法；
· 增强物理属性感知与常识推理能力；
· 探索任务分解的自主学习机制。

08 结论

本文系统综述了预训练模型在具身抓取中的应用，从基础平台到高层策略均展现了显著进展。预训练模型通过先验知识注入，解决了数据稀缺与泛化难题，推动了机器人抓取的智能化。然而，真实场景的复杂性仍对模型的适应性、泛化性和可解释性提出严峻挑战。未来需进一步探索多模态融合、物理常识建模与高效学习框架，以实现机器人在开放环境中的自主操作能力。

具身抓取研究综述

01 引言

02 具身基础

03 预训练模型

04 具身感知

05 具身策略

5.1 模仿学习

5.2 强化学习

06 具身Agent

07 挑战与展望

08 结论

一点人工一点智能

引用和评论

《数据科学：基于Python的入门导论》

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

金融行业MySQL索引实战：交易系统的最左原则深度优化