DeepMind宣布推出可玩《我的世界》的AI DreamerV3

DeepMind与多伦多大学发布DreamerV3算法

DeepMind与多伦多大学的研究人员宣布了DreamerV3,这是一种用于训练AI模型的强化学习(RL)算法。DreamerV3能够在多个领域中表现出色,并且能够训练AI在Minecraft中收集钻石,而无需人类指导。

DreamerV3算法的核心组件

DreamerV3包含三个神经网络:

  1. 世界模型:预测行动的结果。
  2. 评论家:预测世界模型状态的价值。
  3. 执行者:选择行动以达到有价值的状态。

这些网络在单个Nvidia V100 GPU上通过回放经验进行训练。研究人员在七个不同领域的150多个任务上对算法进行了评估,包括模拟机器人控制和视频游戏。DreamerV3在所有领域都表现出色,并在其中四个领域创下了新的最先进性能。

强化学习的潜力

强化学习是一种强大的技术,能够训练AI模型解决各种复杂任务,如游戏或机器人控制。DeepMind曾使用RL创建了能够击败人类顶尖玩家的模型,如Go和Starcraft。2022年,InfoQ报道了DayDreamer,这是该算法的早期版本,能够在几小时内训练物理机器人执行复杂任务。然而,RL训练通常需要领域专家的协助和昂贵的计算资源来微调模型。

DreamerV3的创新之处

DeepMind的目标是开发一种“开箱即用”的算法,无需修改超参数即可在多个领域中工作。为了解决输入和奖励在不同领域中变化较大的问题,DeepMind团队引入了对称对数(symlog)变换,将模型的输入和输出进行“压缩”。

评估DreamerV3的七个基准

研究人员在七个基准上评估了DreamerV3的有效性:

  • Proprio Control Suite:低维控制任务
  • Visual Control Suite:以高维图像为输入的控制任务
  • Atari 100k:26个Atari游戏
  • Atari 200M:55个Atari游戏
  • BSuite:RL行为基准
  • Crafter:生存视频游戏
  • DMLab:3D环境

DreamerV3在所有基准上都表现出色,并在Proprio Control Suite、Visual Control Suite、BSuite和Crafter上创下了新的最先进性能。团队还使用默认超参数训练了一个模型,该模型是第一个“在Minecraft中从头开始收集钻石而不使用人类数据”的模型。

未来展望

主要作者Danijar Hafner在Twitter上回答了关于该工作的几个问题,他指出:

该算法的主要特点是它可以在新问题上“开箱即用”,无需专家进行调整。这是优化现实世界进程的一大步。

尽管DreamerV3的源代码尚未发布,但Hafner表示“即将发布”。前一个版本DreamerV2的代码已在GitHub上提供。Hafner还提到,V3包含了“更好的回放缓冲区”,并在JAX而非TensorFlow上实现。

阅读 41
0 条评论