关注前沿科技 量子位

北大和人大团队在通用人形机器人动作生成领域取得重大突破!

首创性地提出了具备数据-模型协同放量(Scaling Law)特性的通用动作生成框架Being-M0

通过大规模互联网视频,构建了业界首个百万规模的动作生成数据集MotionLib

又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形机器人的动作迁移。

文章将发表于ICML2025。

创新点

百万级动作数据集MotionLib

  • Being-M0团队构建了业界首个突破百万规模的动作生成数据集,并建立了从原始视频到高质量动作数据的全自动化处理流程,大幅提升了数据获取效率。

大规模动作生成模型

  • 同团队提出的动作生成大模型展现出显著的规模效应,成功验证了“大数据+大模型”在人体运动生成领域的技术可行性,为通用动作智能奠定基础。

多平台动作重定向

  • Being-M0团队创新融合优化与学习方法,实现了动作数据向宇树H1、H1-2、G1等多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。

MotionLib: 突破数据规模瓶颈

在人工智能领域,数据规模的突破往往能带来模型性能质的飞跃。

为构建大规模动作数据集,Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数据,如何实现高质量动作数据的自动化提取成为了关键挑战。

为此,Being-M0团队开发了一套创新的数据处理流水线:

首先,基于预训练模型进行2D人体关键点估计,并通过置信度阈值实现初步筛选;随后,采用经过大规模3D数据集训练的先进模型,生成高精度的3D关键点数据。

在动作标注方面,针对现有数据集普遍存在的描述粒度粗糙问题(通常仅用单句话概括整个动作),团队创新性地提出了分层标注方案:

该方案利用Gemini-1.5-pro为每个视频生成了结构化描述,不仅包含动作的整体语义,还详细记录了手臂、腿部等身体部位的运动特征。这种细粒度的标注体系为高精度动作生成提供了关键支持。

MotionLib的独特优势还体现在其多模态特性上:每个动作序列不仅包含标准RGB视频,还提供了深度信息等辅助数据,并支持多人交互场景的分析。这些丰富的多模态信息显著拓展了数据集的应用场景。

经过严格的质量筛选流程,Being-M0团队最终构建了包含超过100万条高质量动作序列的数据集,其规模达到现有最大公开数据集的15倍,为突破动作生成领域的规模瓶颈奠定了坚实基础

大规模动作生成:从语言到动作

随着MotionLib数据规模实现数量级突破,如何充分释放大规模数据的性能红利成为了关键问题。

通过系统性实验,Being-M0团队首次在动作生成领域验证了模型规模与数据规模之间的协同放大效应(Scaling Law)。研究表明: 1)在同等数据条件下,模型容量与生成质量呈显著正相关,13B参数的LLaMA-2模型相较700M参数的GPT2,在动作多样性和语义对齐精度等核心指标上均实现突破; 2)大模型展现出更优的数据利用率,在数据规模扩展时保持稳定的性能增长曲线。

这些发现不仅验证了“大数据+大模型”技术路线的普适性,更为构建通用动作生成模型提供了关键设计准则。

传统方法在将大语言模型应用于动作生成时面临根本性挑战:主流向量量化(VQ)技术将高维动作数据压缩为一维离散token,导致时序动态和关节协同等关键结构化信息严重损失。这种单维表征方式不仅受限于有限codebook容量,更难以刻画人体运动的连续细微变化。

针对这一瓶颈,Being-M0团队提出MotionBook——业界首个二维无查找量化框架。该技术突破性创新包括:

  1. 空间-时序解耦编码

    将动作序列建模为单通道二维”动作图像”,分别在时间轴和关节轴构建独立编码空间,完整保留运动的多维结构特征;

  2. 动态扩展词表

    通过降维投影消除传统codebook查找环节,使动作词表容量提升两个数量级;

  3. 坍塌免疫机制

    创新性的参数化离散策略从根本上避免了传统VQ的codebook坍塌问题。

实验表明,这种表示方法能更好地发挥大模型的潜力,特别是在生成精细动作方面具有明显优势,为构建下一代动作生成模型奠定了新的技术基础。

高效动作重定向:从人体到人形机器人

将生成的人体动作迁移到实体机器人是实现文本驱动人形机器人动作生成的最后一环。

实现文本到机器人动作的闭环需要解决跨形态动作迁移这一核心挑战。

由于不同人形机器人在自由度配置、连杆尺寸等方面存在显著差异,将人体动作重定向到机器人时,传统基于运动学逆解或关节角度直接映射的方法往往导致动作失真甚至动力学不可行。

为解决这一问题,Being-M0团队提出了”优化+学习”的两阶段解决方案:

在训练数据构建阶段,通过多目标优化方法生成满足机器人运动学约束的动作序列——优化过程不仅考虑了关节限位等基本约束,还考虑了动作轨迹的平滑性和稳定性。这种基于多目标优化的方法虽然计算开销较大,但能保证生成数据的高质量,为后续的学习阶段打下良好基础。

在动作映射阶段,采用轻量级的MLP网络学习从人体动作到人形机器人动作的映射关系。通过精心设计的网络结构,该方法实现了对H1、H1-2、G1等多个机器人平台的高效支持。

与直接优化相比,基于神经网络的方法显著提升了系统的实时性能,同时保持了动作迁移的准确性。

BeingBeyond:打造通用具身智能,推动机器人走进千家万户

Being-M0由来自智在无界、北京大学、人民大学和智源研究院的研究团队共同打造。

MotionLib是业界首个百万规模动作生成数据集;Being-M0验证了“大数据+大模型”在动作生成领域的技术可行性,为面向人形机器人的通用动作生成模型奠定了基础。

研究团队表示,BeingBeyond将持续迭代人形机器人的具身大模型、灵巧操作、全身运动控制等,在未来让机器人涌现更强的通用能力和自主性。

项目地址:https://beingbeyond.github.io... 论文链接:https://arxiv.org/abs/2410.03311

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

学术投稿请于工作日发邮件到:

mailto:ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

🌟 点亮星标 🌟

科技前沿进展每日见


量子位
58 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。


引用和评论

0 条评论