DeepMind 推出了 Genie 3,一个文本到 3D 的交互式世界模型

主要观点:DeepMind 推出了 Genie 3,是其世界模型框架的最新版本,可直接从文本提示生成交互式 3D 环境,能实时以 720p 分辨率约 24 帧每秒渲染场景,可连续导航交互数分钟且无场景重置,在对象持久性等方面较早期版本有核心改进,能将多种工具结合为单一生成管道,兼具内容创作和模拟平台功能,可从文本创建各种场景,与其他生成 AI 系统有区别,Reddit 用户对其评价不一,传统模拟引擎需资产库和手动场景组装,Genie 3 按需生成环境但有运行时长和环境复杂度等限制。
关键信息

  • Genie 3 是 DeepMind 的世界模型框架最新版本。
  • 可实时渲染 720p 分辨率场景并连续交互数分钟。
  • 核心改进是对象持久性。
  • 结合多种工具为单一生成管道。
  • 与其他生成 AI 系统在功能上有差异。
  • Reddit 用户有不同看法。
  • 传统模拟引擎需手动操作。
    重要细节
  • Genie 3 能从自然语言生成独特环境,如室内工业布局等。
  • [OpenAI 的 Sora]只能生成固定长度视频且不支持实时交互。
  • [Meta 的 Habitat]专注于 embodied AI 研究,需 predefined 场景。
  • [NVIDIA 的 Isaac Sim]提供先进机器人模拟能力但依赖手动环境。
  • [MineDojo]基于 Minecraft 但限制了 realism 和物理准确性。
  • Genie 3 按需生成环境但有运行时长和复杂度限制。
阅读 154
0 条评论