OpenAI Sora 关键技术详解：揭秘时空碎片 (Spacetime Patches) 技术

编者按：近日，OpenAI发布其首个视频生成模型“Sora”，该模型生成的视频内容可以呈现出多个角色、特定动作以及复杂场景，为构建能够理解和模拟现实世界的人工智能模型奠定了基础。
本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches，作者认为该技术通过创新的时空数据建模方法，让 Sora 学会预测时空维度上事件和对象的变化、运动和互动，从而建立起视频世界的物理模型，生成极其逼真的视频。
这确实是生成模型领域的里程碑，也是一个 AGI 的里程碑。编者相信，没准有一天，哆啦A梦的二次元口袋照相机也可能成为现实。

作者 | Vincent Koc

编译 | 岳扬

人工智能如何将静态图像转换为动态、逼真的视频？OpenAI的 Sora 通过创新性地使用时空碎片技术（spacetime patches）给出了一个答案。

在快速发展的生成模型领域，OpenAI 的 Sora [1]是一个重要的里程碑，有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术[2]以期激发新一代模型在图像、视频和3D内容创建方面的潜力。

OpenAI 使用以下提示词生成生成了一段视频：A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过Sora生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试，完整模型尚未完全向公众发布。

01 Sora 的独特方法如何改变视频生成的方式

在生成模型（generative models）领域的发展过程中，我们见证了从生成式对抗网络（GAN）到自回归（auto-regressive）和扩散模型（diffusion models）等多种方法的演变，它们都有各自的优势和局限性。Sora通过采用新的模型技术和凭借其高度灵活性带来了范式转变，能够处理多种多样的视频时长（duration）、宽高比（aspect ratio）和分辨率（resolution）。

Sora结合了扩散原理（diffusion）和 transformer 架构，提出了diffusion transformer model，并具有如下特性：

文字到视频：这种功能我们应该已经见到过很多次了
图像到视频：为静态图像赋予生命
视频到视频：将视频的风格转换为其他样式
修改视频时间：扩展和缩短视频
创建无缝循环视频：创建看起来无限循环的平铺视频（译者注：在视频编辑领域，Tile（平铺）是一个专业术语，指的是将一个视频片段复制并拼接，重复排列形成一个新的视频画面的技术。）
图像生成：虽然只是单帧静止画面，但是称得上一部“单帧电影”(分辨率高达2048 x 2048)
生成任何分辨率的视频：从1920 x 1080 到 1080 x 1920，应有尽有
模拟虚拟世界：像 Minecraft 和其他视频游戏
创建视频：最长1分钟，包含多个短视频

想象一下，你正在一个厨房里。像Pika[3]和RunwayML[4]这样的传统视频生成模型就像严格遵循食谱的厨师，他们能够制作美味佳肴（视频），但受限于他们所知的食谱（算法）。这些“厨师”可能专攻制作蛋糕（短视频）或意大利面（某类型视频），使用特定的“食材”（数据格式）和“烹调技术”（模型架构）。

相比之下，Sora像是全能大厨，对食品风味的构成与变化了如指掌。Sora不仅能遵循食谱，还持续创造新的菜式。 数据和模型架构的灵活性，让 Sora 能生产出一系列高质量的视频，堪比大师厨艺的多变与精湛。

02 探索 Sora 秘方的核心：Spacetime Patches 技术

Spacetime Patches 是 Sora 创新的核心，它建立在谷歌 DeepMind 早先对 NaViT [5]和 ViT（Vision Transformers）的研究基础之上，其基础是一篇 2021 年的论文《An Image is Worth 16x16 Words[6]》。

“Vanilla” Vision Transformer 架构 —— 图片来源：Dosovitskiy等，2021[6]

在传统的 Vision Transformers 中，我们使用一系列图像 "patches" 来训练模型进行图像识别，而不是像训练 language transformers 那样使用单词来进行训练。通过 "patches"，我们可以摆脱卷积神经网络对图像处理的束缚。

如何将帧/图像划分为 patches —— 图片来源：Dehghani等，2023[5]

然而，Vision transformers 受到图像训练数据的限制，这些数据的大小和长宽比都是固定的，这就限制了图像的质量，并需要对图像进行大量的预处理。

切割视频时态数据的可视化 —— 资料来源：kitasenjudesign[7]

通过将视频处理为 patches 序列，Sora保持了原始的长宽比和分辨率，这与 NaViT 处理图像的方式类似。这种保留对于捕捉视觉数据的真实本质至关重要，可使模型从更准确的世界表征中学习，从而赋予Sora其近乎魔法的准确性。

Spacetime Patching 处理过程的可视化 —— 图片来源：OpenAI（Sora）

通过这种方法，Sora 可以高效地处理各种视觉数据，而无需调整大小或进行填充等预处理步骤。这种灵活性确保了每一条数据都有助于模型的理解，就像厨师使用各种配料来提升菜肴的风味一样。

通过 Spacetime Patching 技术详细而灵活地处理视频数据，为Sora拥有精确的物理模拟和三维一致性等复杂特性奠定了基础。 这些能力对于创建不仅看起来逼真，而且符合世界物理规则的视频至关重要，让我们看到了人工智能创建复杂、动态视觉内容的潜力。

03 喂养Sora：多样化数据在训练中的作用

生成模型的表现与训练数据的质量和多样性密不可分。 现有的视频模型传统上是在更受限的数据集上训练的，时长较短，目标较窄。

Sora的训练数据集广泛多样，包含不同长度、分辨率和长宽比的视频与图像。其重现 Minecraft 等数字世界的能力[8]，极有可能吸收了来自Unity、Unreal等系统的模拟镜头数据，以捕捉更丰富视角和风格的视频内容。这让Sora类似GPT语言模型，达到视频生成的“全能”境界。

丰富数据训练使Sora能够深刻理解复杂动力学，生成既多样又高质量的内容。 这种方法模仿了大语言模型在多样化文本上的训练方式，将类似理念应用于视觉数据，以获得通用能力。

使用可变 patches 的 NaVit vs. 传统的 Vision Transformers —— 图片来源：Dehghani等，2023[5]

正如 NaViT 模型通过将来自不同图像的多个 patches 打包到单个序列中，能够显著提高训练效率和性能一样，Sora 利用时空碎片（Spacetime Patching）实现了在视频生成场景中类似的生成效率。这种方法可以更有效地学习庞大的数据集，提高模型生成高保真视频的能力，同时与现有模型架构相比还可以显著降低所需的计算量。