视频观看本文,请戳链接:https://www.bilibili.com/video/BV1TGCJYUEMZ/?vd_source=d1c2fb...
2024年的篇章即将完结,Google DeepMind 却在这接近尾声的 12 月里,用全新升级的基础世界模型 Genie 2,给自己的 2024 AI 图谱留下了浓墨重彩的一笔。
不知道大家是否还记得,在 2024 年初,Google 发布了基础世界模型 Genie,并将其定义为生成式交互环境 Generative Interactive Environments,引入了一种生成多样化二维世界的方法,打开了生成式 AI 的全新范式。
而在短短不到一年的时间里,Google 就对它进行了重磅升级,由简单的二维平面世界进化到了丰富的 3D 立体世界,只要一张图,就能生成长达 1 分钟的 3D 世界,在通用性上实现了重大突破,让人不经惊呼:难道是黑客帝国来了么?
Genie 2 作为一个基础世界模型(foundation world model),意味着它可以模拟虚拟世界,包括生成无限多种可控制动作、可玩的 3D 环境,而这些 3D 环境又可用于训练和评估具身智能体。Genie 2 与其他生成模型一样具有各种大规模涌现能力,例如物体交互、复杂角色动画、物理以及建模和预测其他智能体行为的能力。
从生成画面的效果来看,Genie 2 模型的功能特点非常强大。
第一点就是“动作控制”,当使用者通过键盘按键进行操作的时候,模型可以智能识别画面中应该进行动作改变的角色,并正确移动,例如我们通过 wasd 操控小机器人在树林中穿梭时,Genie2 可以智能地反映出键盘操控移动的对象是机器人,而非树木。
第二个特点是“生成反事实”,简单来说,就是给定一个起始画面,模型可以脑补多种不同的剧情走向,并生成相应的画面,比如说当我们给出一个分岔路口的起始画面,Genie 2 可以自行生成选择不同的路线后的景象,甚至还包括了一种另辟蹊径、不走寻常路的可能性。这一特点在 AI 训练方面起到了很大的作用,我们都知道数据越多,AI 训练的效果通常就越好,那么这些自动生成的不同发展的画面就能在很大程度上丰富 AI 的训练数据集。
第三个特点是”长时间记忆“,喜欢大世界游戏的人都知道,画面的连贯性是给游戏体验加分的一个重点,而 Genie 2 模型就能够记住那些暂时脱离画面的场景,并在它们重新进入视野时,精确地还原出来,保证了整个世界画面的流畅。
Genie 2 的另外一大功能就是”物理效果“的呈现。水上航行的水波特效、城中街道的烟雾弥漫、腾转挪移的重力效果以及丛林密探的光线变化,极其真实地还原了现实世界中的各种自然表现,给使用者以身临其境的沉浸式体验。
再从技术层面来看,Genie 2 模型架构的核心是自回归潜在扩散模型,在大型视频数据集上进行训练。经过自动编码器后,视频中的潜在帧被传递到大型 Transformer 动力学模型,该模型使用与大语言模型相类似的因果掩码进行训练。在推理时,Genie 2 以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。
最后,从应用场景角度出发,Genie 2 模型更是活跃在各个领域,最直观的方向就是游戏开发,只需单张图片和文字描述,Genie 2 便能构建出包含机器人角色和可探索环境等动态场景,极大程度地提高了游戏开发人员的工作效率,同时也降低了游戏开发的入门门槛,有灵感的普通人也可以轻松将幻想中的画面付诸于实践。
Genie 2 还可以在教育领域根据学生的学习进度和兴趣提供定制化的教学内容,互动式的世界模型可以帮助学生创建个性化的学习环境。而在医疗领域,它也可以模拟复杂的医疗场景,帮助医生进行更准确的诊断和治疗。
Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的潜力,给 2024 的人工智能领域画上了一个相当满意的句点,2025 的 AI 领域又会有怎样新奇的灵感迸发而出呢?
欢迎加入 AI4AI 社区,让我们一起在人工智能的万千浪潮中扬帆远航吧!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。