头图

提到稚晖君,毫无疑问,在科技圈一直是顶流的存在。

自从稚晖君从华为出来投身 AgiBot 机器人创业以后,大佬的技术动向无时无刻不被业内所关注着。

不久前,我们刚写文章聊了聊稚晖君在动态里官宣智元正式开源百万真机数据集 AgiBot World 的事情。

这才过去两个多月,最近稚晖君动态再次迎来了一波更新,并且一出手又是一项干货,那就是:

正式发布首个通用具身基座大模型:GO-1。

相信不少同学也刷到了这条动态。

GO-1 全称 Genie Operator-1,是智元正式发布的首个通用具身基座大模型,该模型在技术架构、学习能力和应用场景等方面实现了多项提升。

这次 GO-1 发布的一大特色就是开创性地提出了 ViLLA(Vision-Language-Latent-Action)架构,其整合了两大模块,包括:

  • 多模态大模型(VLM):通过海量互联网图文数据训练,赋予机器人通用场景感知和语言理解能力;
  • 混合专家模型(MoE):这其中又包含两个关键组件——

    • 隐式规划器(Latent Planner):利用跨本体和人类操作视频数据,学习通用的动作理解能力;
    • 动作专家(Action Expert):依托百万真机数据,实现精细动作执行。

在推理时,这几个部分协同工作,使模型能够通过人类视频进行小样本学习,并快速泛化到新任务和新环境中。

基于这样一个创新架构,GO-1 在实际实验中去的了非常不错的效果。

在五项复杂度不同的任务测试中,GO-1 的平均成功率较现有最优模型提高了32%(46%→78%),尤其在倒水、清理桌面和补充饮料等任务场景中表现突出。

另外隐式规划器的引入贡献了12%(66%→78%)的成功率提升,验证了其在动作规划中的核心作用。

总结起来,GO-1 大模型通过一系列架构创新获得了如下核心能力特点:

  • 跨场景泛化:支持零样本或少样本学习,适应新环境和新任务,降低具身智能的部署门槛
  • 多形态适配:可灵活部署至不同机器人本体(如双足人形、轮式双臂等),实现“一脑多形”
  • 持续进化:结合数据回流系统,通过实际使用中遇到的问题不断优化模型性能

那针对以上这些点,智元官方也放出了对应的研究论文,大家感兴趣的话也可以去看一看。

agibot-world.com/blog/agibot_go1.pdf

GO-1 大模型的发布是具身智能迈向通用化的一个重要标志,也为后续机器人进入家庭、商业和工业等更多场景提供了技术基石。

回顾过往,从去年下半年开始,稚晖君就搞了一系列开源大动作。

  • 第一次开源是9月底。

当时稚晖君时隔数月突然在B站更新了动态并且带来了一项干货,那就是:

智元自研高性能中间件 AimRT 正式宣布开源。

开源地址:github.com/AimRT/AimRT

这是一个面向现代机器人领域的运行时开发框架,轻量易部署,在资源管控、异步编程、部署配置等方面均具有更现代设计。

  • 第二次开源是1024程序员节。

当时稚晖君在B站动态里又再次官宣:灵犀 X1 的全套资料正式开源

这是一个包含29个关节和2个夹爪并且支持扩展头部3自由度的全栈开源机器人。

而这次开源了则涵盖了灵犀 X1 的开发指南、结构设计资料、推理代码、训练代码等在内的全套资料。

开源地址:github.com/AgibotTech

  • 第三次开源则是12月30号。

稚晖君发动态正式官宣:开源百万真机数据集 AgiBot World

开源地址:

  • github.com/OpenDriveLab/agibot-world
  • huggingface.co/agibot-world

这也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目。

至此为止,当初稚晖君在发布会上所预告的三大开源承诺也均已完成了:

  • 开源 → AimRT
  • 开源 → 灵犀X1
  • 开源 → 具身数据集

正如智元所说,希望通过开源开放和生态共创来降低机器人的开发门槛,从而共同推进人形机器人和具身智能技术的创新发展。

包括这次通用具身基座大模型 GO-1 的发布,无疑又再次给具身智能的发展注入了一波新的动力。

对机器人开发感兴趣的同学可以说有福了,这波可以直接站在巨人的肩膀上。

注:本文在GitHub开源仓库「编程之路」 https://github.com/rd2coding/Road2Coding 中已经收录,里面有我整理的6大编程方向(岗位)的自学路线+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。

CodeSheep
3.5k 声望7.7k 粉丝