概述:
这篇论文介绍了一种名为Make-A-Video的方法,即文字生成视频,用于从文本描述生成视频。该方法利用了文本到图像生成和无监督视频数据的进展,学习了世界的外观和运动方式。Make-A-Video具有三个优点:加速训练、不需要配对的文本-视频数据以及继承了图像生成模型的多样性。该方法包括空间-时间模块和超分辨率模型,用于生成高质量的视频。该论文的实验结果表明,Make-A-Video在文本到视频生成方面优于现有的文本生成视频的方法。该论文还介绍了Make-A-Video的组成部分,包括文本编码器、解码器、超分辨率网络和时空层。这些组件在无标签视频数据上进行独立训练,然后进行微调。最后,这篇论文对模型生成的视频进行了评估,评估者比较了生成视频的质量和忠实度。Make-A-Video在视频质量和文本-视频忠实度方面表现良好。总体而言,Make-A-Video在文本到视频生成方面展示了比以前的工作更好的性能,并实现了高质量和忠实的视频生成。
简介:
随着人工智能的兴起,数字图像处理也有长足的发展,将数字图像处理与人工智能结合在一起,也产生了一些奇妙的化学反应,再加上如今,互联网有大量的文字和视频数据,文本生成视频的技术应运而生。其快速的短视频制作能力对游戏,影视,短视频等行列的影响必将是巨大的。虽然改论文所使用的算法Make a video 作为 TTV 技术的中间过度。对于入门研究其原理,无疑是最为合适的。
虽然早期的文字生成图片做的比较顺利,但在文字生成视频方面,进步却不大,原因在于,人们对于文字生成图片采取了文字和图片匹配的数据集进行训练,然而,虽然互联网有大量的文字视频数据,但是匹配在一起的并不多,或者说,其实一段话很难概括性的描述一段视频,它总会有些遗漏。显然之前的监督学习是很难解决这个问题的,故而采取无监督学习。同时该论文还发现只描述一张图片来生成短视频的效果惊人的号。以上两点就是Make a video的核心思想。
基于以上两个思想,自然而然的引出了实现文字生成短视频的思路,首先我们由文字生成几个关键帧图像,再通过时空层卷积神经网络,构造生成一个短视频。效果图如下。
和以往的文字生成视频一样,该论文同样采取网络。Make a video使用函数在模型初始化阶段为文字生成的图像扩展了空间层,以包含时间信息。扩展的时空网络包括新的注意力模块,从视频集合中学习时间动态。该程序通过将先前训练过的 T2I 网络中的知识瞬间转移到新的 T2V 网络中,极大地加快了 T2V 训练过程。为了提高视觉质量,Make a video还训练了空间超分辨率模型和帧插值模型,用于增加生成视频的分辨率,并实现了可控的更高帧速率。该论文的主要贡献可总结成以下几点。
- 提出了一个方法: Make A Video 是一种通过时空因子扩散模型将基于扩散的 T2I 模型扩展到 T2V 的有效方法。这表明系统能够从文本生成高质量视频,而无需成对的文字-视频数据。
- 解决文字视频匹配: 系统绕过了对成对文字-视频数据的需求,而是利用联合文字图片先验,使得系统能够扩展到更大数量的视频数据,从而提高了数据的利用效率。
- 空间和时间上的超分辨率策略: 引入了空间和时间上的超分辨率策略,系统在用户提供的文字输入的情况下首次生成高清晰度、高帧率的视频。这说明系统不仅考虑了空间细节,还关注了时间动态。
- 评估方法: Make A Video 被与现有的 T2V 系统进行了评估,包括最先进的定量和定性测量结果。这种评估方法可以为系统性能提供全面的了解,并且比现有文献更彻底。同时作者还收集了一个测试集对其进行评估。
以前的工作:
文字转图片生成:
- 早期采用无条件生成对抗网络(GAN)的方法,后续发展了多个 GAN 变种,专注于渐进式生成或图文对齐。
- DALL-E(文本生成图像的人工智能) 创新性地将 T2I 生成看作序列到序列的翻译问题,采用离散变分自动编码器(VQVAE)和变换器。
- 出现了多个变种,如 Make-A-Scene、Parti、DDPM、GLIDE 和 DALLE-2,涉及可控生成、多元内容生成、降噪扩散概率模型等。
- GLIDE(OpenAI开发的模型) 提出的无分类器引导方法被广泛应用,提高了图片质量和文字符合度。
文字转视频生成:
- T2V 生成的进展相对滞后,主要因为缺乏大规模的高质量文字视频配对数据和高维视频数据建模的复杂性。
- 早期工作集中在简单领域的视频生成,如移动的数字或特定的人物动作。
- Sync-DRAW 是第一个利用重复注意力的变分自编码器 T2V 生成方法,而 GODIVA 则首次使用 2D VQVAE 和稀疏注意力。
- NÜWA 扩展了 GODIVA,并提供了统一的表示方法,而 CogVideo T2I 模型引入了额外的时间注意力。
- 最近的 VDM 则同时使用了图片和视频数据进行训练,并收集了大规模的私人文字-视频对用于训练。
利用图片先验生成视频:
- MoCoGAN-HD 将视频生成定义为在预先训练的固定图片生成模型的隐空间内寻找轨迹的任务。
- NÜWA 结合了图片和视频数据集,提高了模型泛化以进行微调,而 CogVideo 则利用预先训练和固定的 T2I 模型用于 T2V 生成。
- VDM 的架构结合了图片和视频的生成方式,但是从随机视频中随机抽取独立图片作为来源。、
Make A Video相较于之前的工作,引入了一种创新而有效的方法,突破了T2V生成对于文本-视频配对训练样本的依赖,从而使其更加灵活,能够适应不同的数据情况。通过对T2I模型进行视频生成微调,相较于冻结权重的方法,实现了更好的权衡,提升了生成视频的性能。其独创性地采用了伪三维卷积和时间注意力层,受到先前在视频和3D视觉任务方面高效架构的启发,更充分地发挥了T2I架构的潜力,同时相较于VDM更为灵活,允许更好地整合时间信息,从而进一步提升了生成视频的质量和准确性。
方法:
Make A Video 包含了三个主要的组件,每个组件都在整个系统的构建中发挥关键作用:
- T2I 基本模型: 这是通过使用文字图片数据进行训练的 T2I基本模型,是 Make A Video 的第一个组件,是将文本描述映射到图像的关键组成部分。
- 时空卷积和注意力层: 时空卷积和注意力层构成了 Make A ideo 的第二个组件,用于将网络的砌块(关键帧图片)扩展到时间维度上。这些层的作用是捕捉视频数据中的时序信息,以便更好地生成具有时空一致性的视频。
- 时空网络: 时空网络是 Make A Video 的第三个组件,包括时空层和用于高帧率生成的帧插值网络。时空层的目的是处理视频生成任务中的时空关系,确保生成的视频在时间和空间上都具有合理的结构。帧插值网络用于生成高帧率的视频,提升视频的流畅性。
这三个组件共同协作,使 Make A Video 能够有效地从文本生成高质量的视频,并在时空维度上考虑到视频的结构和一致性。系统的整体设计旨在充分利用 T2I 基本模型的知识,同时通过引入时空卷积、注意力层和帧插值网络,使得生成的视频更具有时空连贯性和高帧率。其模型架构示意图如下。
总结:
人类智力的最大优势之一是能够向我们周围的世界学习。如果一个生成系统能模仿人类的学习方式,就像我们通过观察能很快学会识别人、地点、事物和动作一样,将更有创造性、更有用。Make a Video使用无监督学习从更高数量级的视频中学习世界的动态,有助于研究人员摆脱对标记数据的依赖,推动T2V的发展。
该论文的方法不能学习文字及只能在视频中推断的现象之间的关联。如何结合这些(例如,生成一个人从左到右或从右到左挥手的视频),来生成更长的、包含多个场景和事件的视频,描绘更详细的故事,是留给未来的工作。正如前面所说,Make a Video是一个T2I到T2V的过渡性算法。
同样,如任何人工智能一样,模型可能会从中学到并且夸大一些带有社会偏见的有害内容,这些需要人去规范管理。
所使用的数据集和参考代码:
使用的数据集:
UCF101
MSR-VTT
WebVid
参考代码(原论文作者没有上传代码,但 github 上有其他人复现成功上传的代码):
2 种代码实现(在 PyTorch 中)
3 code implementations found onCatalyzeX
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。