DeepMind 推出了 Genie 3，一个文本到 3D 的交互式世界模型

发布于 2025-08-18

主要观点：DeepMind 推出了 Genie 3，是其世界模型框架的最新版本，可直接从文本提示生成交互式 3D 环境，能实时以 720p 分辨率约 24 帧每秒渲染场景，可连续导航交互数分钟且无场景重置，在对象持久性等方面较早期版本有核心改进，能将多种工具结合为单一生成管道，兼具内容创作和模拟平台功能，可从文本创建各种场景，与其他生成 AI 系统有区别，Reddit 用户对其评价不一，传统模拟引擎需资产库和手动场景组装，Genie 3 按需生成环境但有运行时长和环境复杂度等限制。
关键信息：

Genie 3 是 DeepMind 的世界模型框架最新版本。
可实时渲染 720p 分辨率场景并连续交互数分钟。
核心改进是对象持久性。
结合多种工具为单一生成管道。
与其他生成 AI 系统在功能上有差异。
Reddit 用户有不同看法。
传统模拟引擎需手动操作。
重要细节：
Genie 3 能从自然语言生成独特环境，如室内工业布局等。
[OpenAI 的 Sora]只能生成固定长度视频且不支持实时交互。
[Meta 的 Habitat]专注于 embodied AI 研究，需 predefined 场景。
[NVIDIA 的 Isaac Sim]提供先进机器人模拟能力但依赖手动环境。
[MineDojo]基于 Minecraft 但限制了 realism 和物理准确性。
Genie 3 按需生成环境但有运行时长和复杂度限制。

阅读 322