谷歌的Genie 2“世界模型”揭示带来的问题多于答案

Google Genie 2 模型发布:从2D到3D的飞跃

2024年3月,Google首次展示了其Genie AI模型,该模型通过训练数千小时的2D跑跳游戏视频,能够根据通用图像或文本描述生成可交互的游戏场景。九个月后,Google发布了Genie 2模型,将这一技术扩展到了完全3D的世界,并配备了可控的第三人称或第一人称角色。Google将Genie 2称为“基础世界模型”,能够创建完全交互式的虚拟环境,为AI代理在合成但逼真的环境中进行自我训练提供了重要工具,这被认为是通向人工通用智能(AGI)的关键一步。

Genie 2的核心功能

Genie 2从单一图像或文本描述开始,生成后续视频帧,并根据用户输入(如移动方向或“跳跃”)进行调整。Google表示,Genie 2通过大规模视频数据集进行训练,但未透露具体训练数据量。Genie 2的主要进步在于其“长时记忆”功能,允许模型记住视野外的世界部分,并在角色移动时准确渲染这些部分。然而,Genie 2的“长时记忆”仅限于最多一分钟,大多数示例仅持续10到20秒,这与实时游戏引擎的期望仍有较大差距。

Genie 2的应用场景

Google认为,Genie 2目前更适合用于快速原型设计,将概念艺术和绘画转化为完全交互的环境,而不是创建完整的游戏体验。尽管这种能力对视觉艺术家在新游戏世界的构思中可能有用,但对于需要超越视觉的游戏设计原型,AI生成的样本可能帮助有限。游戏设计师通常使用“白盒化”方法来设计游戏世界的结构,而Genie 2在未设计底层结构的情况下生成复杂的视觉世界,可能显得本末倒置。

技术挑战与局限性

Genie 2的生成速度仍然是一个问题。第一代Genie模型以每秒一帧的速度生成世界,远低于实时交互的预期。Google表示,Genie 2的样本由未蒸馏的基础模型生成,蒸馏版本可以在实时交互中运行,但输出质量会有所下降。尽管其他AI模型(如Decart和Etched的Oasis模型)已经展示了实时交互的AI视频生成,但这些模型专注于单一游戏,且在处理复杂场景时仍存在明显局限性。

Genie 2的未来潜力

Genie 2的潜在应用之一是作为其他AI代理的训练环境。Google展示了SIMA代理在Genie 2场景中执行简单指令的能力,这表明Genie 2环境可以成为AI代理在各种合成世界中进行测试的理想平台。尽管Google声称Genie 2在解决训练具身代理的安全性和通用性问题上迈出了重要一步,但距离能够生成人类玩家可以实时探索的通用3D世界的目标,仍有相当长的路要走。

总结

Genie 2展示了Google在AI生成交互式3D世界方面的重大进展,但其在实时交互、长时记忆和复杂场景生成方面仍面临挑战。尽管Genie 2在原型设计和AI代理训练中具有潜力,但其在游戏开发和通用3D世界生成中的应用仍需进一步改进和优化。

阅读 9
0 条评论