ECCV 2024 亮点！RoboTwin：首个双臂协同机器人策略学习 Benchmark

前言

人形机器人要完成各种复杂任务，离不开基础模型的强大泛化能力。但训练这样的模型，需要大量的数据支撑，机器人所需的数据必须包括在这些真实环境中的交互数据。这些数据能够反映机器人与环境的互动情况，帮助机器人学习和适应各种复杂场景，故而数据稀缺成为了制约其发展的主要瓶颈。

RoboTwin

香港大学与松灵机器人、上海人工智能实验室、深圳大学、中国科学院自动化研究所携手共创，提出了
RoboTwin：双臂协同机器人策略学习Benchmark，该旨在通过结合现实世界的遥操作数据与数字孪生的合成数据，为双臂机器人的研究提供强有力的支持。

该论文获得了2024 ECCV 协同具身智能 WORKSHOP Best Paper奖项。

论文作者：Yao Mu，Tianxing Chen，Shijia Peng，Zanxin Chen，Zeyu Gao，Yude Zou，Lunkai Lin，Zhiqiang Xie，Ping Luo
论文链接：https://robotwin-benchmark.github.io/early-version/
GitHub链接：https://github.com/agilexrobotics/RoboTwin

RoboTwin数据集

RoboTwin基准数据集是专为双臂机器人工具使用及人机交互场景设计的，它包含了高质量的注释和多样化的示例，以确保训练的鲁棒性和评估的准确性。数据收集平台：采用了松灵COBOT Magic，该平台配备了四个 AgileX Arms 和四个 Intel Realsense D-435 RGBD 相机，并搭建在松灵 Tracer 底盘上。

数据收集：ARIO 数据联盟提供的工具有助于数据收集和对齐，这些工具可在 GitHub 存储库中找到。每个捕获的帧由来自摄像头的三个图像组成，每个图像提供分辨率为 640 x 480 像素的 RGB 和深度图像。此外，数据还包括机械臂关节和末端执行器的姿势，包括主和从配置，包括左臂和右臂。对于运动任务，还会记录差速驱动底盘的线性速度和角速度。所有数据存储和格式均遵循 ARIO 数据联盟制定的统一标准。
数据生成方法：在创建数字孪生的过程中，传统方法依赖昂贵的高保真传感器，成本高昂且难以普及。这种方法不仅降低了成本，还提供了逼真的视觉效果并支持物理模拟，为机器人系统的训练和评估提供了有力的工具。为此，团队开发了一种创新的方法，使用人工智能生成内容（AIGC）从单个2D RGB图像构建3D模型（使用3D AIGC图生3D的Rodin模型）此外，RoboTwin还搭建了融合3D资产的空间关系注释（关键的功能点和功能轴等）和大型语言模型（LLMs）来自动生成专家数据的框架。通过GPT4-V等先进的大型语言模型，RoboTwin能够生成符合任务要求机器人控制代码，从而生成大量多样的专家数据集，来支撑策略的学习。