Genie 2 登场：谷歌 DeepMind 打造的基础世界模型！

谷歌

在人工智能领域持续蓬勃发展的浪潮中，谷歌 DeepMind 于 2024 年 12 月 5 日重磅推出了基础世界模型 Genie 2，这一成果标志着虚拟世界生成领域迈进了一个崭新的阶段，引发了业内的广泛关注与深入探讨。

Genie 2

Genie 2 是一个基础世界模型，能够生成各种可操作、可玩的 3D 环境，用于训练和评估具体代理。基于单个提示图像，它可以由人工或 AI 代理使用键盘和鼠标输入播放。Genie 2 作为年初 Genie 模型的升级版，展现出了令人瞩目的创新能力。它能够依据用户输入的单张图片及文字描述，生成种类近乎 “无限” 的可玩 3D 世界，为用户打开了一扇通往充满无限可能的虚拟世界大门。

支持多视角

视角展示

Genie 2 能够根据用户输入的单张图片和文字描述，生成 “无限” 种类的可玩 3D 世界。例如，输入 “森林中的可爱人形机器人”，模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。

Genie 2 具备从不同视角（如第一人称视角与等距视角）生成连贯世界的能力，这些生成的世界可持续时间长达一分钟，但多数情况下维持在 10 到 20 秒之间。经过视频训练，该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及 “NPC”（非玩家角色）的行为。许多生成的场景画质接近 3A 级别的电子游戏，甚至在物体视角一致性和场景记忆方面表现优异。

超强渲染能力

准确渲染

虽然大多数基础世界模型可以模拟游戏和 3D 环境，但还存在伪影、一致性和幻觉相关的问题。Genie 2 可以记住模拟场景中不在视野范围内的一部分，并在它们再次可见时准确地渲染它们。目前用 Genie 2 创建的游戏实际上不会那么有趣，因为每隔一分钟左右就会抹去进度。因此，DeepMind 将其定位为研究与创意工具，应用于快速原型设计和 AI 智能体评估等场景。

在游戏开发领域，虽然目前用 Genie 2 创建的游戏趣味性有限，每隔一分钟左右就会抹去进度，但它为游戏开发提供了新的思路和可能性。例如，用户可以仅通过一张图片和相关文字描述，轻松生成一个 720p 清晰度的可交互 3D 环境，用户可以通过键盘和鼠标控制在虚拟世界中自由探索，这为游戏开发者提供了新的创意平台。此外，在美术创作以及教学等众多领域也提供了无限可能，用户可以通过与 AI 生成的世界进行深度交互，探索全新的虚拟境界。

有关慧星云

慧星云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在慧星云。

Genie 2 登场：谷歌 DeepMind 打造的基础世界模型！

Genie 2

支持多视角

超强渲染能力

慧星云

引用和评论

ComfyUI一键画风转换：爆火老照片自拍一键转绘

一文掌握 MCP 上下文协议：从理论到实践

开放创新，昇腾 CANN 再向深处

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

Genie 2 登场：谷歌 DeepMind 打造的基础世界模型！

Genie 2

支持多视角

超强渲染能力

慧星云

引用和评论

ComfyUI一键画风转换 ：爆火老照片自拍一键转绘

一文掌握 MCP 上下文协议：从理论到实践

开放创新，昇腾 CANN 再向深处

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

ComfyUI一键画风转换：爆火老照片自拍一键转绘