PartDrag-4D是大规模多视角零件级动态数据集，含超20000状态观测数据，用于4D重建模型训练评估。

2025-03-26，由清华大学、密歇根大学、北京大学和 BAAI 等机构联合创建PartDrag-4D 的数据集。该数据集包含超过 20,000 个状态的多视角零件级动态观测数据，目的解决现有方法在建模零件级动态时的局限性，如 2D 视频表示的限制和处理速度慢等问题。PartDrag-4D 的创建为零件级动态建模提供了丰富的数据支持，推动了机器人操作、AR/VR 等领域的研究进展。

一、研究背景

世界模型在预测未来状态、理解物理世界以及机器人操作、AR/VR 等领域中起着至关重要的作用。近年来，建模零件级动态（即在零件级别生成真实、精细的运动）成为了一个研究热点，因为它能够满足高精度和适应性强的任务需求，例如在动态环境中的操作和导航。

目前遇到困难和挑战：

1、数据稀缺性：目前缺乏能够捕捉 3D 物体及其动态属性的数据，这限制了基础模型的数据密集型训练需求。

2、表示和建模挑战：有效表示拖动交互并将这些条件整合到 4D 框架中是一个尚未解决的问题。此外，在微调过程中保留预训练的外观和几何建模能力而不出现灾难性遗忘也是一个问题。

3、现有方法的局限性：现有的零件级建模方法，如 Puppet-Master，虽然能够利用预训练期间学到的丰富运动模式，但其输出为单视角视频，无法满足模拟器对 3D 表示的需求，且处理速度慢，无法为生成操作策略提供快速的试错反馈。

数据集地址：PartDrag-4D

二、让我们一起来看一下PartDrag-4D

PartDrag-4D 是一个大规模的多视角零件级动态数据集，包含超过 20,000 个状态的观测数据，目的支持 4D 重建模型的训练和评估。

数据集构建：

1、基础数据来源：基于 PartNet-Mobility 数据集，该数据集提供了详细零件级注释的可活动物体。

2、网格动画化：选择 738 个网格模型，涵盖 8 个类别。对于每个网格模型，动画化一个可活动部件，使其在两个极端位置之间通过 6 个阶段，同时将其他部件设置为随机位置，总共生成了 20,548 个状态。

3、多视角图像渲染：使用 Blender 渲染每个状态的 12 个视角图像，固定相机距离为 2.4 米，高度为 1.5 米，分辨率为 512×512。

4、拖动点采样：在移动部件的表面上采样拖动点，并将这些点投影到 2D 图像空间中，确保投影点对应于从指定相机视角可见的网格表面。

数据集特点:

1、大规模多视角数据：提供了超过 20,000 个状态的多视角观测数据，支持 4D 重建模型的训练。

2、丰富的零件级动态：涵盖了多种可活动部件的动态变化，适用于研究零件级运动建模。

3、高质量图像和注释：图像以高分辨率渲染，并提供了详细的零件级注释，便于模型学习和评估。

基准测试：

评估指标：使用 PSNR、SSIM 和 LPIPS 等指标评估模型的性能。

实验设置：在 PartDrag-4D 数据集上训练和评估模型，与现有方法（如 DragAPart、DiffEditor 和 Puppet-Master）进行比较。

结果分析：PartRM 在所有评估指标上均优于现有方法，证明了其在零件级动态建模方面的优越性能。

PartDrag-4D 数据集简介。PartDrag-4D 利用跨越 8 个类别的 738 个网格来生成 20,548 个关节状态。对于每个状态，PartDrag-4D 渲染 12 个视图。在移动表面上对拖动进行采样。

                                PartRM概述

PartRM的系统架构：

主要用于处理图像和拖动操作，以实现三维重建和变形。整个流程分为三个主要步骤：

Step I: 图像和拖动处理（Image and Drag Processing）

1、输入图像：系统接收一个输入图像。

2、多视图扩散模型（Multi-view Diffusion Model）：使用一个经过微调的Zero123++模型生成多视图图像。

3、拖动传播模型（Drag Propagation Model）：将输入的拖动传播到移动的部分，生成传播后的拖动。

Step II: 重建和变形管道(Reconstruction and Deformation Pipeline)

1、拖动嵌入模型：将拖动嵌入到多尺度嵌入中。

2、多尺度拖动嵌入：结合多尺度嵌入和UNet下采样块。

3、PartRM模块：通过跳跃连接将拖动嵌入和多视图图像输入到PartRM模块中，生成预测的变形三维高斯。

4、变形多视图渲染（Deformed Multiview Renderings）：使用预测的变形三维高斯生成变形的多视图渲染。

高斯数据库构建:Gaussian Database Construction

1、大型3D重建模型：从训练数据集中生成多视图图像。

2、高斯数据库：存储真实的三维高斯。

3、渲染：生成变形的多视图真实值。

4、两阶段训练（Two-stage Training）：

阶段I：运动学习训练：使用真实的变形三维高斯进行监督。

阶段II：外观学习训练：使用真实的变形多视图渲染进行监督。

PartRM系统首先利用微调的Zero123++生成多视图图像，然后通过设计的拖动传播模块将拖动分布在移动的部分。拖动和多视图图像被输入到设计好的网络中，拖动通过多尺度嵌入模块嵌入并连接到UNet下采样块。采用两阶段训练方法：第一阶段学习部分运动，使用真实的变形三维高斯进行监督；第二阶段学习外观，使用真实的变形多视图渲染进行监督。

                            阻力传播模块的图示

                            拖动嵌入模块的图示

PartRM 和基线之间的定性比较。用斜杠分隔的时间值分别表示首先将 2D 拖动变形应用于输入图像，然后使用 LGM 和基于优化的方法执行 3D 重建所花费的时间。PartRM 在时间列中只有一个值，因为它同时对外观、几何体和零件级运动进行建模，因此无需单独的步骤。PartRM 可以有效地学习零件的运动。

                        泛化到野生数据 。我们从互联网收集数据进行评估。

                            训练阶段的消融和多尺度拖动嵌入

        机器人作中的应用。 我们对生成的数据获得明确的对象作策略，并将其推广到真实数据。

三、展望PartDrag-4D数据应用

比如机器人打开抽屉任务

以前，机器人要学习打开抽屉这个任务，主要靠一些简单的2D图像数据来训练。比如，研究人员会用一些抽屉的图片，然后让机器人学习怎么从图片里判断抽屉的位置和方向。但这种方法有个很大的问题，就是机器人很难理解抽屉在三维空间里是怎么动的。比如，它可能知道抽屉在图片里的位置，但不知道抽屉把手的方向，也不知道抽屉打开时会沿着哪个方向移动。这就导致机器人在实际操作时，可能会抓错位置，或者用错力，最后抽屉可能打不开，或者开得歪歪扭扭的。

现在有了 PartDrag-4D 数据集，情况就大不一样了。

这个数据集提供了多视角的零件级动态观测数据，也就是说，机器人可以从不同角度看到抽屉在打开过程中的各种状态。比如，数据集里有抽屉从完全关闭到完全打开的多个阶段的图像，机器人可以从正面、侧面等多个视角学习抽屉的运动。这样，机器人就能更准确地理解抽屉的三维结构和运动方式。

具体优势

1、更精准的运动理解：以前机器人可能只知道抽屉大概在哪个位置，现在它可以精确地知道抽屉把手的方向，以及抽屉打开时沿着哪个方向移动。这就像是机器人从“模糊视力”变成了“高清视力”，能更精准地操作抽屉。

2、更好的泛化能力：以前的方法在面对不同类型的抽屉或者不同的环境时，可能就不灵了。但 PartDrag-4D 数据集里的数据很丰富，涵盖了多种类型的抽屉和不同的操作场景。所以，机器人在训练时就能接触到各种各样的情况，以后遇到没见过的抽屉，也能轻松应对。

3、多视角学习：以前机器人只能从一个视角学习抽屉的操作，现在可以从多个视角学习。这就像是机器人有了“360度无死角”的视角，能更全面地理解抽屉的运动。

哈哈，现在有了 PartDrag-4D 数据集，机器人在打开抽屉这个任务上，就像从一个“新手小白”变成了一个“熟练工”。它不仅能更精准地操作抽屉，还能适应各种不同的情况，大大提高了任务的成功率和效率

更多免费的数据集，请打开：遇见数据集

https://www.selectdataset.com/

PartDrag-4D是大规模多视角零件级动态数据集，含超20000状态观测数据，用于4D重建模型训练评估。

一、研究背景

目前遇到困难和挑战：

二、让我们一起来看一下PartDrag-4D

数据集构建：

数据集特点:

基准测试：

PartRM的系统架构：

三、展望PartDrag-4D数据应用

比如机器人打开抽屉任务

更多免费的数据集，请打开：遇见数据集

数据猎手小k

引用和评论

AMO数据集：解决运动模仿偏差的超灵巧人形机器人全身控制混合数据集。

最全糖尿病数据集（不定时更新）

Chinese SimpleQA：包含3000个高质量问题，用来评估大型语言模型中文事实性能力的基准测试.

DAPO-Math-17K：17000数学题整数答案数据集，为LLM强化学习设计，确保准确奖励信号。

SCB-Dataset3：首个涵盖从幼儿园到大学的多行为类别学生课堂行为检测数据集

NAVCON：首个大规模基于认知和语言对齐的视觉语言导航预料库

Git-10M :一个全球规模的遥感图像-文本对数据集，包含1000万图像-文本对，覆盖广泛的地理场景和丰富的地理空间元数据。