谷歌新推出的机器人AI能够折叠精致的折纸,无损地拉上拉链袋

Google DeepMind 发布两款新型机器人控制AI模型

2023年12月,Google DeepMind宣布推出两款专为机器人控制设计的新型AI模型:Gemini RoboticsGemini Robotics-ER。这些模型旨在帮助各种形状和尺寸的机器人更有效、更精细地理解和与物理世界互动,为人形机器人助手等应用铺平道路。

主要观点

  1. 模型背景与目标

    • 这两款模型基于Google的Gemini 2.0大语言模型,专为机器人应用开发。
    • Gemini Robotics 具备“视觉-语言-动作”(VLA)能力,能够处理视觉信息、理解语言指令并生成物理动作。
    • Gemini Robotics-ER 专注于“具身推理”,增强空间理解能力,允许机器人专家将其连接到现有的机器人控制系统。
  2. 功能与创新

    • 相比前代模型RT-2,Gemini Robotics在执行复杂物理操作方面取得了显著进步,例如折纸和将零食装入密封袋等精细任务。
    • 模型展示了更强的泛化能力,能够在未经专门训练的情况下完成新任务,其泛化性能是现有最先进模型的两倍以上。
  3. 合作与应用

    • Google与位于德克萨斯州奥斯汀的Apptronik合作,计划基于Gemini 2.0开发下一代人形机器人。
    • 模型已在多种机器人平台上进行测试,包括研究用的Franka机械臂和更复杂的人形系统如Apptronik的Apollo机器人
  4. 安全与限制

    • Google采用“分层、整体化”的安全方法,包括碰撞避免和力限制等传统机器人安全措施。
    • 公司开发了“机器人宪法”框架,并发布名为“ASIMOV”的数据集,以帮助研究人员评估机器人行为的安全影响。
  5. 现状与挑战

    • 目前,这些模型仍处于研究阶段,尚未公布具体的商业化时间表。
    • 尽管演示视频展示了AI驱动能力的进步,但在不可预测的现实环境中,这些系统的实际表现仍存在疑问。

关键信息

  • 技术基础:基于Gemini 2.0大语言模型,专为机器人应用优化。
  • 核心能力:视觉-语言-动作(VLA)和具身推理。
  • 合作对象:与Apptronik合作开发人形机器人。
  • 安全措施:机器人宪法框架和ASIMOV数据集。

重要细节

  • 泛化能力:Gemini Robotics在未经专门训练的任务上表现出色,泛化性能显著提升。
  • 精细操作:能够完成折纸和包装等复杂任务,展示了前所未有的灵活性。
  • 安全评估:ASIMOV数据集旨在帮助研究人员测试机器人行为的安全影响。

通过这些创新,Google DeepMind正在推动机器人技术向更通用、更安全的方向发展,尽管仍面临现实环境中的挑战。

阅读 11 (UV 11)
0 条评论