谷歌的Genie 2“世界模型”揭示带来的问题多于答案

Google Genie 2 模型发布：从2D到3D的飞跃

2024年3月，Google首次展示了其Genie AI模型，该模型通过训练数千小时的2D跑跳游戏视频，能够根据通用图像或文本描述生成可交互的游戏场景。九个月后，Google发布了Genie 2模型，将这一技术扩展到了完全3D的世界，并配备了可控的第三人称或第一人称角色。Google将Genie 2称为“基础世界模型”，能够创建完全交互式的虚拟环境，为AI代理在合成但逼真的环境中进行自我训练提供了重要工具，这被认为是通向人工通用智能（AGI）的关键一步。

Genie 2的核心功能

Genie 2从单一图像或文本描述开始，生成后续视频帧，并根据用户输入（如移动方向或“跳跃”）进行调整。Google表示，Genie 2通过大规模视频数据集进行训练，但未透露具体训练数据量。Genie 2的主要进步在于其“长时记忆”功能，允许模型记住视野外的世界部分，并在角色移动时准确渲染这些部分。然而，Genie 2的“长时记忆”仅限于最多一分钟，大多数示例仅持续10到20秒，这与实时游戏引擎的期望仍有较大差距。

Genie 2的应用场景

Google认为，Genie 2目前更适合用于快速原型设计，将概念艺术和绘画转化为完全交互的环境，而不是创建完整的游戏体验。尽管这种能力对视觉艺术家在新游戏世界的构思中可能有用，但对于需要超越视觉的游戏设计原型，AI生成的样本可能帮助有限。游戏设计师通常使用“白盒化”方法来设计游戏世界的结构，而Genie 2在未设计底层结构的情况下生成复杂的视觉世界，可能显得本末倒置。

技术挑战与局限性

Genie 2的生成速度仍然是一个问题。第一代Genie模型以每秒一帧的速度生成世界，远低于实时交互的预期。Google表示，Genie 2的样本由未蒸馏的基础模型生成，蒸馏版本可以在实时交互中运行，但输出质量会有所下降。尽管其他AI模型（如Decart和Etched的Oasis模型）已经展示了实时交互的AI视频生成，但这些模型专注于单一游戏，且在处理复杂场景时仍存在明显局限性。

Genie 2的未来潜力

Genie 2的潜在应用之一是作为其他AI代理的训练环境。Google展示了SIMA代理在Genie 2场景中执行简单指令的能力，这表明Genie 2环境可以成为AI代理在各种合成世界中进行测试的理想平台。尽管Google声称Genie 2在解决训练具身代理的安全性和通用性问题上迈出了重要一步，但距离能够生成人类玩家可以实时探索的通用3D世界的目标，仍有相当长的路要走。

总结

Genie 2展示了Google在AI生成交互式3D世界方面的重大进展，但其在实时交互、长时记忆和复杂场景生成方面仍面临挑战。尽管Genie 2在原型设计和AI代理训练中具有潜力，但其在游戏开发和通用3D世界生成中的应用仍需进一步改进和优化。