香港大学提出Goku 基于流的视频生成基础模型

🕙发布时间:2025-02-25

更多LLM架构文章:LLM架构专栏
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
4. 3W6000字了解大模型LLM:部署、优化与框架
知乎【柏企
公众号【柏企科技说】【柏企阅文

论文综述

Goku: Flow Based Video Generative Foundation Models
项目代码
项目地址

Goku是一系列基于整流流Transformer构建的图像与视频联合生成模型。论文作者详细阐述了数据整理、模型架构设计、流公式制定,以及高效大规模训练的设置方式。在文本到图像生成任务上,该方法在GenEval评估中得分0.76,在DPG-Bench评估中达到83.65;在文本到视频任务的VBench评估里,更是取得84.85的成绩,这些都是全新的最优结果(SOTA)。

方法

训练时,借助3D图像 - 视频联合变分自编码器(VAE),视频和图像被编码到潜在空间。这些潜在数据会被整合为同时包含图像和视频数据的小批量数据,进而实现统一的跨模态表示。随后,模型运用整流流技术,并借助Transformer模块处理潜在数据,有效捕捉空间和时间上的依赖关系。

架构

Goku Transformer模块是在GenTron基础上进行的扩展,它融合了多种技术:利用自注意力机制捕捉令牌间的相关性;借助交叉注意力机制处理文本嵌入;通过前馈网络实现投影;还引入了逐层adaLN-Zero模块,结合时间戳信息引导特征转换。此外,它还有以下创新点:

  • 全注意力机制(Full Attention):以往方法常将空间和时间注意力分开,而Goku则采用全注意力机制,配合FlashAttention和序列并行技术优化效率,能更好地进行运动建模。
  • Patch n’ Pack:该技术把图像和视频整合到同一个小批量数据中,无需再单独设置数据桶。
  • 3D RoPE位置嵌入(3D RoPE Positional Embeddings):这是对图像/视频RoPE的扩展,提升了模型对不同分辨率和序列长度的适应性,还能加快模型收敛速度。
  • Q-K归一化(Q-K Normalization):运用RMSNorm进行查询键归一化,有效防止损失值出现峰值,保障训练过程的稳定性。

基于流的训练

Goku模型运用整流流算法实现图像和视频的联合生成,这不仅加快了收敛速度,还让模型概念更加清晰。整流流(RF)利用线性插值,将来自先验分布(高斯噪声)的样本转换为目标数据分布。实验显示,RF的收敛速度比去噪扩散模型更快。

训练细节

为了高效处理图像和视频生成任务,Goku采用了三阶段训练法:

  • 文本语义配对(Text-Semantic Pairing):在文本到图像任务上进行预训练,让模型学习视觉语义和概念。
  • 图像和视频联合学习(Joint Image-and-Video Learning):将训练范围拓展到图像和视频领域,借助统一的令牌序列方法提升视频生成质量。在这个阶段,模型采用级联分辨率策略进行训练,先在288x512分辨率下训练,接着是480x864和720x1280分辨率。
  • 特定于模态的微调(Modality-Specific Fine-Tuning):对文本到图像生成进行优化,以获取更好的视觉效果;同时针对文本到视频生成进行优化,提高时间平滑度、运动连续性和稳定性。

在视频生成时,Goku会以每个视频片段的第一帧作为参考图像,将其令牌广播,并与添加噪声后的视频令牌按通道维度拼接。通过一个MLP层处理通道对齐,Goku-T2V架构的其他部分保持不变。

基础架构优化

  • 3D并行计算(3D parallelism):Goku运用3D并行技术,在序列、数据和模型参数之间分配计算任务。序列并行(Sequence-Parallelism)通过对序列切片和分散注意力计算来降低内存占用;全分片数据并行(Fully Sharded Data Parallelism)则对参数、梯度和优化器状态进行分区,平衡内存效率和通信开销。
  • 激活检查点(Activation Checkpointing):该技术仅存储必要层的激活值,最大限度减少内存使用。
  • 集群容错策略:Goku整合了MegaScale的集群容错策略,涵盖自检诊断、多级监控和快速恢复机制,即便GPU节点出现故障,也能确保大规模训练稳定进行。
  • ByteCheckpoint:Goku借助ByteCheckpoint实现训练状态的高效并行保存和加载,支持重新分片,能无缝适配不同规模的集群。在数千个GPU上对80亿参数的模型进行检查点操作,耗时不到4秒,大幅减少了训练中断的影响。

数据管理管道

数据集构成

数据集包含1.6亿个图像 - 文本对和3600万个视频 - 文本对。

数据处理和过滤

  • 视频预处理和标准化:依据特定标准筛选视频,并统一编码为H.264格式。
  • 视频剪辑提取:采用两阶段剪辑法将视频分割成有意义的片段。首先用PySceneDetect检测镜头边界并创建视频片段,然后DINOv2根据帧间余弦相似度对片段进行优化。超过10秒的片段会被截断,通过感知哈希技术去除审美得分较低的重复片段,保证数据多样性。
  • 视觉美学过滤(Visual Aesthetic Filtering):依据美学分数阈值,仅保留高度逼真的视频片段。
  • OCR过滤:去除包含过多文本的视频片段。
  • 运动动力学评估:运用RAFT光流算法评估视频片段的运动动力学,舍弃运动分数超出可接受范围的片段,并将运动分数添加到片段元数据中,以便更好地控制运动。

字幕生成

  • 针对图像,作者使用InternVL2.0为每个样本生成详细字幕。
  • 对于视频,先用InternVL2.0生成关键帧字幕,再借助Tarsier2生成视频整体描述。Tarsier2能直接识别相机运动类型(如缩放、平移),相比以往方法,无需单独的运动预测模型,简化了流程。最后,利用Qwen2将关键帧字幕和视频字幕合并为统一描述,确保内容连贯。此外,将RAFT得出的运动分数融入字幕,能进一步优化运动控制,用户在输入提示词时可指定不同运动动态,引导视频生成。

实验

Goku在多个基准测试中,无论是文本到图像还是文本到视频的生成任务,都展现出了顶尖的性能。

  • 文本到图像:Goku-T2I在GenEval、T2I-CompBench和DPG-Bench测试中表现优异,在文本与图像对齐以及紧密遵循提示词方面,超越了PixArt-α、DALL-E 2/3和SDXL等知名模型。
  • 文本到视频:Goku-T2V在UCF-101和VBench测试中成绩突出,生成的视频高保真、丰富多样且充满动态感。在16个评估维度上,它的Fréchet视频距离达到最优,在人体动作呈现、动态运动和物体生成等方面表现卓越。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝