一、引言

在当今数字化时代,多媒体内容的需求呈爆炸式增长,视频作为一种极具表现力和传播力的信息载体,其创作和生成技术的发展至关重要。2024 年 2 月 15 日,OpenAI 推出了了 Sora 技术,并迅速引起了全球范围内的广泛关注和热议,众多研究机构、企业和开发者纷纷开始探索其在各个领域的应用潜力,推动了 Sora 技术在实际应用中的快速发展和迭代。尽管目前 Sora 仍处于不断发展和完善的过程中,但它已经展现出了强大的技术实力和广阔的应用前景,有望在未来成为视频内容创作和生成领域的重要支柱技术。它能够根据文本描述生成高质量、逼真的视频内容,为影视制作、广告创意、教育教学、游戏开发等多个行业带来了新的可能性和变革机遇。

尽管openAI至今还未公开其Sora技术详情,其模型也还未开源,但业界对于Sora技术路线有着广泛且统一的认识。并且已有像潞晨科技、北大兔展等科技企业和研究机构尝试复现并开源发布出类似的成果。本文将主要围绕 Sora 技术的原理机制、核心技术点及目前公开的类Sora复现技术等方面进行阐述。

二、Sora 技术原理剖析

2.1 模型架构解析

图片

添加图片注释,不超过 140 字(可选)

业界普遍认为的Sora技术架构为上图,原始视频数据经过自编解码器(VAE)编码压缩后变成时空潜空间的潜在表示,经过过ViT(Vision Transformer)视频被切分为类似文本token的patch表示,同时利用如CLIP这样的多模态模型理解图像和文本之间的关系,

对于输入文本要经过LLM大语言模型输出对于图像更详细、规范的描述,而后由Diffusion transformer扩散模型基于输入token和视图关系进行去噪扩散生成,最后由自编解码器(VAE)将潜在表示解码转换回原始数据。

核心部分:

VAE编码器:变分自编码器(Variational Autoencoder)将输入视图数据编码压缩成潜在空间的表示。

ViT:视觉变换器(Vision Transformer)将图像分割成小块(patches)并将patches作为序列输入来进行处理。

DDPM:去噪扩散概率模型(Denoising Diffusion Probabilistic Model)通过逐步去噪的方式生成高质量的图像或视频。

VAE解码器:与编码器相对应,解码器负责将潜在表示转换回原始数据空间,得到视图文件。

其中比较大的创新点在于DiT ,可以认为DiT= [VAE编码器 + ViT + DDPM + VAE解码器],并把传统扩散模型DPPM中的卷积U-Net架构换成了transformer,可以捕捉更多有效的视图细节特征,提升视图生成的质量。而DIT中,Patchify和VAE是被业界认为Sora的技术特性:

Patchify是将隐变量进行卷积和flatten(张量展平为一维),实现将2维隐空间在保留部分空间信息的前提下展开到一维(类似Token)的一种计算方法;

VAE(Variational Autoencoder)是一种基于概率分布和随机采样的自编解码系统,它不是将输入直接映射到一个固定的向量,而是将输入映射到一个概率分布上。这种方法使得VAE不仅能够进行数据重构,还能生成新的、与输入数据相似的数据。如下图,它不是简单的编解码,而是能够根据样本生成介于圆月、月牙之间的半月的视图。

图片

添加图片注释,不超过 140 字(可选)

下面针对Sora技术中两个核心内容Diffusion model和Transformer 技术分别进行阐述。

2.1.1 Diffusion model(扩散模型)

Diffusion model 是 Sora 技术的基石之一,其核心原理是通过对原始视频数据进行压缩和加噪处理,学习从噪声到清晰图像或视频的映射过程。在训练阶段,Sora 首先将原始视频压缩至低维度的潜在空间,这一过程类似于将高清视频转化为模糊、带有噪声的版本。随后,模型学习如何逐步去除噪声,还原出原始的视频内容。这种从噪声中还原信息的方式,使得 Sora 能够生成具有高度细节和逼真度的视频。

具体而言,Diffusion model 包括两个关键步骤:Encoder(编码)和 Decoder(解码)。Encoder 将原视频进行压缩,将其转化为低维度的潜在表示,此时视频充满噪点,但这种压缩后的表示大幅降低了数据量,减少了训练所需的算力资源,同时也为模型提供了学习视频关键特征的基础。Decoder 则负责将压缩后的视频进行还原或创造,通过对潜在空间中的数据进行去噪操作,逐步恢复至高清的像素空间,生成清晰、连贯的视频内容。

2.1.2 Transformer 技术

Transformer 技术在 Sora 中起着至关重要的作用,尤其是在处理视频中的序列数据方面。Transformer 最初应用于自然语言处理领域,能够有效学习文本之间的依赖关系,Sora 将其扩展到视频领域,用于理解和生成视频内容。

在 Sora 中,Transformer 通过自注意力机制(Self-Attention Mechanism),能够同时关注视频序列中的不同部分,捕捉视频中各个元素之间的复杂关系,包括物体的运动、场景的变化以及角色的互动等。这种全局的注意力机制使得 Sora 能够生成逻辑连贯、情节合理的视频内容,避免了传统模型在处理长视频序列时可能出现的信息丢失或逻辑混乱问题。

例如,当生成一个包含人物对话和动作的视频场景时,Transformer 能够同时关注人物的表情、语言、动作以及周围环境的变化,确保每个元素的变化都符合逻辑和现实情境,从而提升视频的整体质量和观赏性。通过将 Diffusion model 与 Transformer 技术相结合,Sora 实现了对视频内容的高效学习和生成,能够根据用户提供的文本描述,生成具有高度细节、逼真度和逻辑性的视频内容。

2.2 数据处理机制

2.2.1 数据标记与预处理

Sora 在数据处理方面采用了独特的方法,首先对视频数据进行标记,将其转化为计算机能够理解的语言形式。具体来说,Sora 采用了类似于大语言模型中的 token 的方式,将视频分割成一系列小块区域,即 visual patches(视觉补丁)。这些视觉补丁不仅包含了视频的局部空间信息,还涵盖了时间维度上的连续变化信息,使得模型能够更好地捕捉视频中的复杂视觉特征,如运动、颜色变化、物体的出现和消失等。

此外,Sora 还借鉴了 DALL-E3 的 Re-Captioning 技术,对训练数据集中的视频进行重新标注。通过训练一个 captioner model,将视频内容转译为详细的文本描述,然后结合对应的视频进行训练。这种方式使得 AI 能够更好地理解视频中的抽象元素,避免了因人工标注的主观性和局限性导致的数据理解偏差,从而提高了数据质量和模型的学习效果。

2.2.2 训练数据集的构建与应用

Sora 的训练数据集来源广泛,包括公开数据集、专有数据以及人工生成数据等。公开数据集涵盖了来自互联网上的大量视频资源,这些数据经过筛选和预处理,确保了数据的多样性和广泛性。专有数据则通过与合作伙伴(如 Shutterstock、Pond5 等)的合作获取,这些数据具有较高的专业性和版权合法性,为模型提供了高质量的训练素材。人工生成数据则由 AI 培训师和红队成员提供,他们通过设计特定的场景和任务,生成符合模型训练需求的视频数据,用于针对性地优化模型的某些特定能力,如模拟特定的物理现象或复杂的场景交互。

通过构建大规模、多样化的训练数据集,并采用有效的数据处理和标记技术,Sora 能够让模型学习到丰富的视觉特征和语义信息,从而提升模型的泛化能力,使其能够应对各种不同类型的视频生成任务,无论是简单的场景描述还是复杂的叙事性视频创作,都能够生成高质量、符合用户需求的视频内容。

三、 Sora技术发展概况

3.1 Sora技术发展历程

Sora 技术的发展历程是 OpenAI 在人工智能领域持续探索和创新的重要体现。其起源可以追溯到 OpenAI 在自然语言处理和图像生成领域的深厚积累,尤其是 GPT 系列语言模型和 DALL-E 图像生成模型的成功,为 Sora 的研发奠定了坚实的技术基础和数据资源。

在早期研发阶段,OpenAI 的研究团队致力于解决视频生成中的关键难题,如如何提高视频的连贯性、真实性和逻辑性,以及如何让模型更好地理解和遵循用户的文本指令。通过大量的实验和优化,团队逐步探索出将 Diffusion model 和 Transformer 技术相结合的创新路径,使得 Sora 能够在生成视频时,不仅能够生成高质量的图像内容,还能确保视频在时间和空间上的连贯性,以及角色和场景的逻辑合理性。

3.2 业界复现进展

在openAI推出Sora不久,就有业界科技企业和科研机构尝试复现Sora这一视图生成技术,其中潞晨科技 Open-Sora、北大兔展 Open-Sora Plan是发布最早、影响力巨大并实现成果发布、技术开源的两个类Sora复现的典型。

3.2.1 潞晨科技 Open-Sora

  • 技术开源与模型发布:潞晨科技全面开源全球首个类 Sora 架构视频生成模型 “Open-Sora 1.0”,并在 GitHub 上开放了整个训练流程,包括数据处理、所有训练细节和模型权重1。
  • 技术改进与优化:潞晨 Open-Sora 团队不断对模型进行优化和改进,如在 Open-Sora 1.2 版本中提出了视频压缩网络(VAE),在空间和时间两个维度上进行压缩,既避免了牺牲视频流畅度,又大幅降低了训练成本,实现了成本与质量的双重优化。还基于 Stable Diffusion 3 的研究成果,提供了一套完整的训练解决方案,加快了模型的训练速度,减少了推理阶段的等待时间2。
  • 应用拓展与效果展示:Open-Sora 能够支持无缝产出任意风格的高质量短片,如海浪与海螺的亲密接触、深不可测的森林秘境、逼真的人物肖像渲染、赛博朋克风格的短片等,还能轻松应对电影级别的镜头制作需求,如实现流畅的变焦效果等,为影片增添专业级的视觉效果。

3.2.2 北大兔展 Open-Sora Plan

  • 计划发布与开源:兔展智能与北京大学深圳研究生院的 AIGC 联合实验室发起了 Open-Sora Plan,并在 GitHub 上公开,核心技术框架包括视频编解码模块、Diffusion Transformer 模型和条件输入三大模块。该计划一经发布,立刻引起了国际人工智能大 V 们的兴趣并纷纷转发,帖子浏览量迅速破 20 万;发布一周内 star 超过 5k,登上 GitHub Trend 第一。
  • 阶段性成果展示:Open-Sora Plan 已初步完成前两个阶段验证任务,第一阶段版本已经可以在国产 AI 芯片(如华为昇腾 910系列)上运行,能制作出 1024×1024 分辨率的视频,以及 10 秒长、24 帧每秒的高清视频,还能创造出高分辨率的静态图像。第二阶段版本则在有效框架基础上使用更多数据和更大算力,在华为昇腾算力中训练出 20 秒以上、720p 清晰度的视频生成模型,并实现了开源。

  • 社区互动与合作:在开源社区,一周内融合 30 余次开源创作者的拉取请求,一周内更新模型和代码两百余次,获得 14 万余次访问,代码被克隆超 800 次,吸引了来自美国、英国、加拿大、德国、澳大利亚、迪拜、沙特阿拉伯、伊朗等多个国家的技术人员参与其中,积极贡献。

四、 小结

总之,Sora 技术作为视频生成领域的前沿技术,具有巨大的发展潜力和应用价值,我们应积极关注其发展动态,把握机遇,应对挑战,共同推动视频内容创作领域迈向新的高度。