主要观点:Google DeepMind 推出 Gemini Robotics On-Device,这是一种可在机器人硬件上本地运行的视觉语言动作(VLA)基础模型,具有低延迟推理能力,只需 50 个演示即可针对特定任务进行微调。
关键信息:
- 是 Gemini Robotics 家族的最新迭代,也是第一个可微调的模型,适用于需在本地运行以降低延迟或因缺乏网络的应用。
- 基于 Google 的 Gemini 2.0 LLMs,包含物理动作输出模式,发布了多个基准测试。
- 测试了模型快速适应新任务的能力,在本地和非本地版本上表现不同。
重要细节: - 在 Aloha 机器人上训练,也在其他机器人平台上评估,能处理新硬件上的复杂任务。
- 一位 Hacker News 用户认为 VLAs 可能是机器人领域的“chatgpt 时刻”,该方法可应用于各种任务。
- 目前该模型未普遍可用,感兴趣的开发者可注册等待名单,还有相关模型的交互式演示和 Gemini Robotics SDK 可在网上获取。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。