GameNGen

主要观点:介绍了名为GameNGen的第一个完全由神经模型驱动的游戏引擎,能实现与复杂环境的实时交互并以高质量呈现,可在单TPU上以超20帧每秒实时模拟经典游戏《DOOM》,下帧预测PSNR达29.4与有损JPEG压缩相当,人类难以区分游戏短剪辑和模拟短剪辑。
关键信息

  • 分两阶段训练:RL-agent学习玩游戏并记录训练会话作为生成模型训练数据,再用扩散模型基于过去帧和动作序列预测下帧。
  • 架构方面:通过代理玩游戏收集数据,用重制的小扩散模型[Stable Diffusion]v1.4并添加条件和噪声来训练,还对预训练的自动编码器解码器进行微调。
    重要细节
  • 数据收集阶段通过训练自动RL-agent来获取游戏动作和观察的训练剧集。
  • 训练生成扩散模型时,为减轻推理时的自回归漂移,在训练时给编码帧添加高斯噪声。
  • 微调阶段针对预测游戏帧时预训练自动编码器产生的有意义伪影,仅训练解码器使用MSE损失与目标帧像素对比。
  • 论文相关信息:作者为Dani Valevski等,发表于2024年,arxiv编号2408.14837,涉及计算机视觉领域cs.LG。
  • 致谢部分感谢了众多人员和团队的反馈、想法、建议及支持。
阅读 13
0 条评论