今天的 VLA 研究分散在各个机构,每个研究团队都在用自己的规则“下棋”。他们采用不同的数据格式,基于不同的模型架构,运行在不同的实验环境中。这种碎片化的研发状态,让全球研究陷入了一场低效的“中盘缠斗”。一个根本性的问题被长期搁置:一个算法在另一个实验室表现不佳,我们很难判断,究竟是因为设计缺陷,还是仅仅因为“水土不服”。当公平比较都难以实现时,有效的知识积累与真正的技术进步又从何谈起?为打破这一困境,Dexmal 原力灵机开源了 Dexbotic。
作为一套基于 PyTorch 框架的开源视觉-语言-动作模型工具箱,Dexbotic 从数据、模型到实验三个层面,为具身智能研究者提供了一种标准化、模块化且高性能的一站式科研基础设施。它的出现,显著提升 VLA研究的工程效率,或将为具身智能落下“第三十七手”。
统一的数据格式
根据 Dexbotic 技术报告,当前 VLA 研究面临的首要挑战是数据格式的碎片化。各实验室采用不同的数据存储方案,导致算法复现和性能比较困难重重,研究者不得不将大量的时间投入数据预处理,而非核心算法改进。
为解决这一问题,Dexbotic 提出了 Dexdata 统一数据格式。它采用了 video + jsonl 的结构设计,视频文件以标准的 MP4 格式存储在 video 目录中,而对应的 jsonl 文件则完整记录每个机器人场景的多视角图像、状态信息和文本指令。这种一体化的封装方式,避免了数据在不同系统间转换和存储时产生的冗余,相较于 Lerobot 和 RLDS 等主流格式,能更有效地节省存储空间。Dexdata 的创新不仅在于结构设计,还在于其高效的访问机制。
jsonl 目录中的 index_cache.json 文件存储了所有场景的元数据,并能够通过自动生成的方式,确保研究人员能够快速访问和检索数据。这一设计大大提高了数据处理的效率,特别是在需要快速检索或大规模实验的场景中,能够显著提升研究的整体效率。最重要的是,Dexdata 的标准化为整个领域建立了统一的“数据语言”。
当来自 UR5、Franka、ALOHA等不同机器人平台的数据都能转换为同一格式时,研究者将不再需要为每个平台编写特定的代码。这不仅减轻了研究者的工程负担,更为跨平台的算法公平比较与高效复现奠定了坚实基础——只有当所有研究都基于相同的数据标准时,算法性能的差异才能真正反映其设计的优劣。
更高的创新起点
在统一的数据格式的基础上,Dexbotic 正通过构建统一的开发架构、升级基础模型、并建立完整的预训练体系,试图为研究者提供一个更高的创新起点。Dexbotic 最具前瞻性的设计之一,是提出了统一的“视觉语言模型(VLM)+动作专家(AE)”架构。其中,VLM 作为系统的“大脑”,专注于多模态信息的理解与推理,而 AE 则专精于动作生成。基于这一设计,Pi0、CogACT、OpenVLA-OFT 等主流算法首次能够在同一套体系中实现“即插即用”。研究者可以自由组合不同组件,保留各算法技术特色的同时,也确保了比较的公平性。在这一架构之上,Dexbotic 进一步通过基础模型的升级为系统注入新的活力。
技术报告显示,当前许多先进算法仍受限于 Llama2 等相对陈旧的基座。对此,Dexbotic 独立开发和训练全新的基座模型 DexboticVLM。它将 CLIP 视觉编码器与最新的 Qwen2.5 大语言模型深度融合,并使用两层 MLP网络作为投影器,来实现视觉和语言信息的对齐,显著提升了模型的感知与推理能力。
统一的架构与强大的基座,最终需要转化为实际的研究效能交付给社区。从支持通用任务的 Dexbotic-Base,到专门优化的 Dexbotic-CogACT,Dexbotic 构建了完整的预训练模型体系。在技术报告提供的SimplerEnv 基准测试结果中,我们发现不同类型的算法在新基座上都得到了差异化提升。
对于像 CogACT 这样架构成熟、原版性能已表现不俗的模型,新基座能带来18.2% 的性能增益;而对于原有潜力未被充分挖掘的算法,如 OFT,新基座也能带来 46.2% 的显著提升;即便是当前最先进的 MemoryVLA,也获得了超过 12% 的成功率提升。
在真机测试中,这套体系同样展现出了强大的实用性。基于 Dexbotic的算法在"摆放盘子"任务中可实现 100% 成功率,在"搜寻绿色盒子"任务中成功率也达到了 80%。尽管对于诸如“撕碎废纸”和将“薯条倒入盘子”等细粒度的操作任务,现有的 VLA 策略仍然面临挑战,但统一的平台将使得这些进展能够被准确衡量和持续优化。
各项数据表明,当研究社区能够站在一个经过充分验证的坚实基础上开展创新,而非从参差不齐的起点各自爬坡时,整个领域的发展效率与协作模式都将迎来根本性的改变。
试验驱动的研发框架
实验层被技术报告明确为“Dexbotic 中最重要的部分”。这一层的核心价值在于提供了一个高度灵活的实验驱动框架,构建一个让创新想法能够快速验证并落地的完整生态。与传统依赖静态配置文件的框架不同,Dexbotic 选择了完全 Pythonic 的实验开发路径。
其核心理念是“基础配置 + 继承覆盖”。研究者基于统一的 base_exp 基础脚本,通过简单的继承与关键参数覆盖,就能快速生成新的实验方案。这种遵循开放-封闭原则的设计,在保证核心配置稳定的同时,更赋予了研究者充分的探索自由。
技术报告显示,该架构充分还考虑了不同规模团队的基础设施差异,明确支持从阿里云、火山引擎等大规模云平台,到 RTX 4090 等消费级本地显卡的训练环境,以确保不同计算资源背景的团队都能够平等接入这一科研基础设施。
此外,实验层与模型层的深度协同,共同促成了研发范式的转变。模型层提供的统一架构是“静态的”能力基础,而实验层则提供了“动态的”调用和组合这些能力的方法。正是这种紧密结合,使得快速算法迭代成为可能,从根本上改变了以往为每个算法单独配置环境的困境,将实验迭代效率提升至新的水平。
为了打通从仿真到真实世界的最后一公里,Dexbotic 还推出了首款开源硬件产品Dexbotic Open Source - W1(DOS-W1)。该产品采用完全开源策略,提供包括设计图纸、BOM 清单、组装方案在内的完整文档。其大量快拆结构与可替换模块设计显著降低了使用门槛,而符合人体工学的设计提升了操作效率。更重要的是,这套硬件为算法验证提供了可靠的物理基准。
这一系列的软硬协同这些技术特性的结合,构建了一个从算法仿真到现实验证的完整内循环。这个内循环极大地提升了算法迭代的效率,而其价值的最终确认,则有赖于外部评估体系。其中 RoboChallenge 作为关键的基准评测平台,建立了统一的真实环境测试标准,为不同算法的公平比较与持续迭代提供了重要依据。至此,一个从“内部高效开发”到“外部权威评估”的研发闭环终于形成,共同推动具身智能研究从分散探索走向协同创新。
在围棋史上,AlphaGo 的“第三十七手”之所以成为传奇,在于它跳出了千百年的定式思维,重新定义了棋局的可能性。Dexmal原力灵机在具身智能领域的这一着亦是如此。从统一的数据语言、模块化的模型架构,到高度灵活的实验框架,Dexbotic 试图构建的,正是一个能够持续积累、严谨复现、高效协作的科研基础设施。 这步棋之后,通往通用具身智能的棋局,才算真正进入了标准化的新维度。
官方网站:https://dexbotic.com/
论文阅读:https://dexbotic.com/dexbotic_tech_report.pdf
GitHub:https://github.com/Dexmal/dexbotic
Hugging Face:https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6...
10月23日晚 19:00
Dexmal 原力灵机创始团队成员汪天才现身直播间
讲解开源一站式 VLA 工具箱 Dexbotic
欢迎大家扫描图中二维码预约观看、线上交流
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。