主要观点:谷歌 DeepMind 研究者描述了一种新教学智能体方法,仅通过视频训练解决复杂长期任务,新代理 Dreamer 4 可在未实际玩 Minecraft 游戏时就学会在其中挖钻石,其方法为“想象训练”,模型架构含压缩视频帧的标记器和预测未来世界表示的动力学模型,通过捷径强制使动力学模型更高效能实时生成新世界表示,还融入时空注意力和专用内存技术,Dreamer 4 是首个仅用离线数据训练能在 Minecraft 挖钻石的代理,远超 OpenAI 的 VPT 离线代理且数据使用量少 100 倍,优于基于微调通用视觉语言模型的现代行为克隆方法,还胜过 Gemma 3,研究者强调其方法不仅适用于行为克隆代理也适用于一般决策,Hafner 称 Minecraft 是具身代理研究的优秀测试平台,Dreamer 4 也在真实世界机器人数据集上测试,与先进视频模型相比有良好表现。
关键信息:
- 新教学方法仅靠视频训练智能体。
- Dreamer 4 能在 Minecraft 中挖钻石。
- 模型架构的组成部分。
- 使动力学模型高效的方法。
- Dreamer 4 与其他代理的比较。
- Minecraft 作为测试平台的优势。
- Dreamer 4 在真实数据集上的测试结果。
重要细节: - 训练在代理“想象”中进行。
- 动力学模型预测未来帧。
- 捷径强制训练模型跨大步。
- 融入多种技术维持每秒 20 帧。
- 挖钻石需基于原始像素数据选 20000 多个动作序列。
- 还有数百更难任务在 Minecraft 中。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。