谷歌
在人工智能领域持续蓬勃发展的浪潮中,谷歌 DeepMind 于 2024 年 12 月 5 日重磅推出了基础世界模型 Genie 2,这一成果标志着虚拟世界生成领域迈进了一个崭新的阶段,引发了业内的广泛关注与深入探讨。
Genie 2
Genie 2
Genie 2 是一个基础世界模型,能够生成各种可操作、可玩的 3D 环境,用于训练和评估具体代理。基于单个提示图像,它可以由人工或 AI 代理使用键盘和鼠标输入播放。Genie 2 作为年初 Genie 模型的升级版,展现出了令人瞩目的创新能力。它能够依据用户输入的单张图片及文字描述,生成种类近乎 “无限” 的可玩 3D 世界,为用户打开了一扇通往充满无限可能的虚拟世界大门。
支持多视角
视角展示
Genie 2 能够根据用户输入的单张图片和文字描述,生成 “无限” 种类的可玩 3D 世界。例如,输入 “森林中的可爱人形机器人”,模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。
Genie 2 具备从不同视角(如第一人称视角与等距视角)生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,但多数情况下维持在 10 到 20 秒之间。经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及 “NPC”(非玩家角色)的行为。许多生成的场景画质接近 3A 级别的电子游戏,甚至在物体视角一致性和场景记忆方面表现优异。
超强渲染能力
准确渲染
虽然大多数基础世界模型可以模拟游戏和 3D 环境,但还存在伪影、一致性和幻觉相关的问题。Genie 2 可以记住模拟场景中不在视野范围内的一部分,并在它们再次可见时准确地渲染它们。目前用 Genie 2 创建的游戏实际上不会那么有趣,因为每隔一分钟左右就会抹去进度。因此,DeepMind 将其定位为研究与创意工具,应用于快速原型设计和 AI 智能体评估等场景。
在游戏开发领域,虽然目前用 Genie 2 创建的游戏趣味性有限,每隔一分钟左右就会抹去进度,但它为游戏开发提供了新的思路和可能性。例如,用户可以仅通过一张图片和相关文字描述,轻松生成一个 720p 清晰度的可交互 3D 环境,用户可以通过键盘和鼠标控制在虚拟世界中自由探索,这为游戏开发者提供了新的创意平台。此外,在美术创作以及教学等众多领域也提供了无限可能,用户可以通过与 AI 生成的世界进行深度交互,探索全新的虚拟境界。
有关慧星云
慧星云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在慧星云。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。