OpenAI发布能够玩《我的世界》的AI VPT

OpenAI开源视频预训练(VPT)技术

OpenAI的研究人员开源了视频预训练(VPT)技术,这是一种半监督学习方法,用于训练游戏代理。VPT在零样本设置下能够执行仅通过强化学习(RL)无法完成的任务,并且在微调后成为首个在《Minecraft》中制作钻石镐的人工智能。

研究背景与方法

OpenAI团队在一篇发表于arXiv的论文中详细描述了模型和多项实验。为了训练VPT,团队首先雇佣玩家在游戏中执行特定动作,生成了约2000小时的带标签视频数据集。利用这些数据,研究人员训练了一个逆动力学模型(IDM),该模型可以推断出视频中动作对应的键盘或鼠标操作。随后,团队使用该模型为约7万小时的《Minecraft》游戏视频添加标签,并使用这些数据预训练VPT基础模型。

模型表现与创新

未经微调的VPT模型能够执行复杂的游戏行为,包括多步骤的制作活动,这些行为在过去对RL模型来说是不可能的。经过微调后,VPT学会了制作钻石镐,这可能需要超过2.4万个游戏内动作。OpenAI团队表示,VPT为代理通过观看互联网上的大量视频学习行动开辟了道路。

技术细节

与NLP和CV领域的研究类似,VPT展示了在大型、嘈杂的数据集上预训练模型可以在各种下游任务中取得最先进的结果。与大多数游戏代理使用RL训练不同,VPT使用了行为克隆(imitation learning),这是一种通过观察另一个代理(通常是人类教师)的状态和动作来估计其策略的方法,不需要学习代理直接与环境互动。

开源与合作

除了发布VPT代码和模型权重,OpenAI还参与了今年的MineRL NeurIPS竞赛,该竞赛为训练代理在MineRL BASALT基准中执行任务的团队提供奖励。此外,其他大型科技公司如Meta和NVIDIA也在使用《Minecraft》作为平台支持AI研究。

总结

VPT技术的开源和应用展示了通过互联网视频训练游戏代理的潜力,尤其是在开放世界游戏如《Minecraft》中。这一技术的成功为未来在类似领域的应用提供了良好的前景。

阅读 23
0 条评论