头图

出品人:Towhee 技术团队 张晨、顾梦佳

以文本-图片生成模型的成功为灵感,近来文本-视频生成模型也开始采用大规模的文本-视频数据集进行微调训练。然而处理大规模视频数据的成本非常高,为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation,即仅使用单个文本-视频对训练通用领域的文本-视频生成器。 Tune-A-Video 多功能性和有效性,能够在各种应用中生成拥有时序性的视频,例如主题或背景的变化、属性编辑、风格转换。

图片

High-level overview of Tune-A-Video.

Tune-A-Video 利用大量数据预训练的文本-图像扩散模型,改进之后实现文本-视频生成。它有两个重要的发现:文本-图像模型能够根据动词描述生成良好的图像;而拓展文本图像模型以同时生成多个图像,则表现出令人惊讶的内容一致性。 为了进一步学习连续运动,Tune-A-Video 使用了定制的稀疏因果注意力。

相关资料:

代码地址:https://github.com/showlab/Tu...
论文链接:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI


引用和评论

0 条评论