头图

2025-03-03,由上海科技大学的研究团队创建了DexGrasp Anything(DGA)的数据集,这是目前规模最大的灵巧抓取数据集,包含超过340万种不同抓取姿势,涵盖15000多个不同物体。该数据集的创建为机器人灵巧抓取领域带来了重大意义,显著提升了现有方法的泛化能力和抓取成功率,推动了通用机器人灵巧抓取技术的发展。

一、研究背景

灵巧抓取是机器人完成各种复杂操作任务的基础能力,尤其是五指灵巧手,因其结构与人手相似,具有更高的灵活性、操作精度和通用性。随着机器人越来越多地被部署在人类环境中,灵巧手在与各种物体交互以及使用为人类设计的工具方面发挥着越来越重要的作用。因此,开发一种精确、鲁棒且通用的灵巧抓取方法对于机器人的交互智能至关重要。

目前遇到的困难和挑战:

1、高自由度与复杂优化问题:早期的分析方法依赖于优化技术来满足特定的物理约束,但由于灵巧手的高自由度和巨大的搜索空间,这些方法往往面临优化复杂度高、成功率低的挑战。

2、数据驱动方法的局限性:数据驱动方法虽然通过大规模数据集学习有用的先验知识,但现有的数据集存在分布狭窄、物体类别有限、可扩展性差等问题,限制了模型的泛化能力。

3、生成方法的不足:尽管生成方法能够增强抓取姿势的多样性,但现有的扩散模型方法由于缺乏物理约束,常常生成次优的抓取姿势,导致手与物体之间的穿透或接触不足,成功率不高。

数据集地址:DexGrasp Anything

二、让我们一起来看一下DexGrasp Anything

DexGrasp Anything(DGA):是目前规模最大、多样性最高的灵巧抓取数据集,包含超过340万种抓取姿势,涵盖15000多个不同物体,为通用灵巧抓取研究提供了强大的数据支持。

该数据集通过整合多个来源的数据,包括模拟数据、真实捕捉数据以及人类手部抓取数据,确保了数据的多样性和全面性。此外,研究团队还采用了“模型在循环”策略,利用其抓取方法和过滤方法继续生成高质量数据,进一步扩大了数据集的规模。

数据集构建:

首先从多个来源收集现有的灵巧抓取数据,然后通过严格的筛选条件确保数据的质量和稳定性。筛选条件包括物体在受力时的位移不超过2厘米,手与物体之间的穿透深度低于10毫米等。此外,研究团队还从Objaverse数据集中选择物体网格,利用训练好的生成器迭代生成抓取姿势,并通过相同的严格标准进行过滤,最终形成了这个大规模且多样化的数据集。

数据集特点:

1、大规模:包含超过340万种严格测试过的抓取姿势,数据规模远超以往的数据集。

2、多样性:涵盖15000多个来自不同类别和来源的物体,能够捕捉更广泛的物体和姿势变化。

3、高质量:通过严格的筛选条件,确保了抓取姿势的稳定性和准确性。

基准测试:

研究团队在多个现有的灵巧抓取数据集上进行了基准测试,结果表明,使用DexGrasp Anything数据集训练的模型在抓取成功率、多样性和穿透度等指标上均优于使用其他数据集训练的模型。

图片

                DexGrasp Anything系统的工作流程

DexGrasp Anything的系统的工作流程:目的是生成机器人灵巧手的抓取姿势。

整个流程分为两个主要阶段:训练(Training)和采样(Sampling)。

训练阶段(Training)

表示提取(Representation Extraction)

1、对象提示(Object prompt):首先,系统接收一个对象的描述性提示,这个提示可以是文本形式,用于指导后续的抓取动作。

2、大型语言模型(LLM):这个提示被输入到一个大型语言模型(LLM)中,模型解析提示并生成一个文本编码(Text Encoder)。

3、点变换器(Point Transformer):同时,对象的3D点云数据也被输入到点变换器中,以提取对象的几何特征。

4、特征融合:文本编码和点变换器提取的特征被结合起来,形成对象的丰富表示。

扩散过程(Diffusion Process)

1、手部输入(Hand Input):系统还接收一个关于机器人手部的初始状态(h0​)。

2、调度器(Scheduler):调度器控制扩散过程的步骤。

3、UNet:一个UNet结构被用来处理带噪声的手部状态和对象表示,以预测去除噪声后的干净状态(h^0)。

4、物理感知约束(Physics-Aware Constraint):在训练过程中,系统引入物理感知约束,确保生成的抓取姿势符合物理规则,如避免手部自穿和手部与物体之间的穿透。

采样阶段(Sampling)

表示提取(Representation Extraction)

在采样阶段,对象输入再次通过相同的表示提取流程,以获取对象的特征表示。

物理引导采样器(Physics-Guided Sampler)

1、UNet:使用UNet处理带噪声的手部状态和对象特征,以预测去除噪声后的干净状态。

2、去噪推断(Denoising Inference):通过迭代过程,逐步去除手部状态中的噪声,生成最终的抓取姿势。

3、物理感知约束:在采样过程中,同样应用物理感知约束,确保生成的抓取姿势的物理可行性。

物理感知约束(Physics-Aware Constraint)

图中还详细解释了三种物理感知约束:

1、表面拉力(Surface Pulling Force, LSPF):确保手部内表面与物体表面之间的接近性。

2、外部穿透排斥力(External-penetration Repulsion Force, LERF):防止手部与物体之间的显著碰撞。

3、自穿透排斥力(Self-penetration Repulsion Force, LSRF):保持手部的几何结构,防止手指之间的碰撞。

整个系统通过结合大型语言模型的语义理解和点变换器的几何特征提取,以及在训练和采样过程中引入物理感知约束,来生成符合物理规则的灵巧抓取姿势。这种方法不仅提高了抓取的成功率,还增强了抓取姿势的多样性和适应性。

图片

        灵巧抓取数据集的比较。我们的数据集实现了迄今为止最大的规模。

图片
与现有数据集相比,我们数据集中对象特征的 t-SNE 可视化。每个点代表一个对象,使用不同的标记和颜色来区分数据集。为清楚起见,我们从每个数据集中随机抽取 5% 的对象进行可视化。
图片
在训练和采样阶段以及LLM模块中纳入物理约束的消融研究。评估是在 DexGraspNet 数据集上进行的。
图片

                表 2 中抓取结果的定性可视化。

图片

            消融研究的可视化。两行显示每个抓取的不同视图。

图片
评估数据集质量和跨数据集泛化。在 DexGraspNet 和 RealDex 上比较模型性能,并在 DexGraspNet 或我们的数据集上进行训练。每组中的最佳结果以粗体突出显示。
图片
表 4 中所示的跨数据集评估结果的可视化。顶行显示在 DexGraspNet 上训练的模型,而底行显示在我们的数据集上训练的模型。
图片

                    我们方法的实际评估。

三、展望DexGrasp Anything数据集应用场景

比如,我是一个机器人训练师,你的任务是教会一个机器人手怎么去抓各种奇形怪状的东西。你手头有一堆模拟出来的物体,比如一个滑不溜秋的鸡蛋,一个沉甸甸的哑铃,或者一个精致的玻璃杯。这些物体都在一个虚拟的房间里,机器人手就在房间的中央。

现在,你有了DexGrasp Anything数据集,这就像是你有了一个巨大的抓取动作数据库。这个数据库里有超过340万个抓取动作,每个动作都是针对不同的物体设计的。你的机器人可以在这个数据库里找到抓鸡蛋的、抓哑铃的、抓玻璃杯的动作,几乎什么都有。

在仿真平台上,你可以设置各种场景,比如光线不同的环境,或者机器人手需要从不同的角度去抓物体。你可以告诉机器人:“嘿,现在你要抓的是一个鸡蛋,记住,要轻轻地,不能太用力。”然后,机器人就会从DexGrasp Anything数据集里找到一个适合抓鸡蛋的动作,尝试去模仿。

如果机器人抓得太用力了,仿真平台会告诉你:“哎呀,鸡蛋碎了!”然后你就可以调整机器人的抓握力度,再次尝试。这个过程可以重复很多次,直到机器人学会怎么用合适的力度去抓鸡蛋。

同样的,你可以教机器人抓哑铃,这时候就要用更大的力气了。数据集里也会有相应的动作,机器人可以学习怎么稳稳地抓住哑铃,不会让它掉下来。

还有更复杂的场景,比如抓玻璃杯。玻璃杯又滑又脆,机器人需要非常小心。数据集里也会有专门的动作,教机器人怎么用合适的姿势和力度去抓,避免玻璃杯滑落或者破碎。

通过在仿真平台上不断练习,机器人可以从DexGrasp Anything数据集中学习到各种各样的抓取技巧。它会变得非常聪明,知道面对不同的物体应该怎么调整自己的动作。这样,当机器人在现实世界中遇到这些物体时,它就已经准备好了,能够准确地抓住它们,完成任务。

更多免费的数据集,请打开:遇见数据集

https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。