香港大学提出Goku 基于流的视频生成基础模型

🕙发布时间：2025-02-25

更多LLM架构文章：LLM架构专栏
近日热文：
1. 全网最全的神经网络数学原理（代码和公式）直观解释
 2. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路
 3. 2W8000字深度剖析25种RAG变体：全网最全~没有之一
 4. 3W6000字了解大模型LLM：部署、优化与框架
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

论文综述

Goku: Flow Based Video Generative Foundation Models
项目代码
 项目地址

Goku是一系列基于整流流Transformer构建的图像与视频联合生成模型。论文作者详细阐述了数据整理、模型架构设计、流公式制定，以及高效大规模训练的设置方式。在文本到图像生成任务上，该方法在GenEval评估中得分0.76，在DPG-Bench评估中达到83.65；在文本到视频任务的VBench评估里，更是取得84.85的成绩，这些都是全新的最优结果（SOTA）。

方法

训练时，借助3D图像 - 视频联合变分自编码器（VAE），视频和图像被编码到潜在空间。这些潜在数据会被整合为同时包含图像和视频数据的小批量数据，进而实现统一的跨模态表示。随后，模型运用整流流技术，并借助Transformer模块处理潜在数据，有效捕捉空间和时间上的依赖关系。

架构

Goku Transformer模块是在GenTron基础上进行的扩展，它融合了多种技术：利用自注意力机制捕捉令牌间的相关性；借助交叉注意力机制处理文本嵌入；通过前馈网络实现投影；还引入了逐层adaLN-Zero模块，结合时间戳信息引导特征转换。此外，它还有以下创新点：

全注意力机制（Full Attention）：以往方法常将空间和时间注意力分开，而Goku则采用全注意力机制，配合FlashAttention和序列并行技术优化效率，能更好地进行运动建模。
Patch n’ Pack：该技术把图像和视频整合到同一个小批量数据中，无需再单独设置数据桶。
3D RoPE位置嵌入（3D RoPE Positional Embeddings）：这是对图像/视频RoPE的扩展，提升了模型对不同分辨率和序列长度的适应性，还能加快模型收敛速度。
Q-K归一化（Q-K Normalization）：运用RMSNorm进行查询键归一化，有效防止损失值出现峰值，保障训练过程的稳定性。

基于流的训练

Goku模型运用整流流算法实现图像和视频的联合生成，这不仅加快了收敛速度，还让模型概念更加清晰。整流流（RF）利用线性插值，将来自先验分布（高斯噪声）的样本转换为目标数据分布。实验显示，RF的收敛速度比去噪扩散模型更快。

训练细节

为了高效处理图像和视频生成任务，Goku采用了三阶段训练法：

文本语义配对（Text-Semantic Pairing）：在文本到图像任务上进行预训练，让模型学习视觉语义和概念。
图像和视频联合学习（Joint Image-and-Video Learning）：将训练范围拓展到图像和视频领域，借助统一的令牌序列方法提升视频生成质量。在这个阶段，模型采用级联分辨率策略进行训练，先在288x512分辨率下训练，接着是480x864和720x1280分辨率。
特定于模态的微调（Modality-Specific Fine-Tuning）：对文本到图像生成进行优化，以获取更好的视觉效果；同时针对文本到视频生成进行优化，提高时间平滑度、运动连续性和稳定性。

在视频生成时，Goku会以每个视频片段的第一帧作为参考图像，将其令牌广播，并与添加噪声后的视频令牌按通道维度拼接。通过一个MLP层处理通道对齐，Goku-T2V架构的其他部分保持不变。

基础架构优化

3D并行计算（3D parallelism）：Goku运用3D并行技术，在序列、数据和模型参数之间分配计算任务。序列并行（Sequence-Parallelism）通过对序列切片和分散注意力计算来降低内存占用；全分片数据并行（Fully Sharded Data Parallelism）则对参数、梯度和优化器状态进行分区，平衡内存效率和通信开销。
激活检查点（Activation Checkpointing）：该技术仅存储必要层的激活值，最大限度减少内存使用。
集群容错策略：Goku整合了MegaScale的集群容错策略，涵盖自检诊断、多级监控和快速恢复机制，即便GPU节点出现故障，也能确保大规模训练稳定进行。
ByteCheckpoint：Goku借助ByteCheckpoint实现训练状态的高效并行保存和加载，支持重新分片，能无缝适配不同规模的集群。在数千个GPU上对80亿参数的模型进行检查点操作，耗时不到4秒，大幅减少了训练中断的影响。

数据管理管道

数据集构成

数据集包含1.6亿个图像 - 文本对和3600万个视频 - 文本对。

数据处理和过滤

视频预处理和标准化：依据特定标准筛选视频，并统一编码为H.264格式。
视频剪辑提取：采用两阶段剪辑法将视频分割成有意义的片段。首先用PySceneDetect检测镜头边界并创建视频片段，然后DINOv2根据帧间余弦相似度对片段进行优化。超过10秒的片段会被截断，通过感知哈希技术去除审美得分较低的重复片段，保证数据多样性。
视觉美学过滤（Visual Aesthetic Filtering）：依据美学分数阈值，仅保留高度逼真的视频片段。
OCR过滤：去除包含过多文本的视频片段。
运动动力学评估：运用RAFT光流算法评估视频片段的运动动力学，舍弃运动分数超出可接受范围的片段，并将运动分数添加到片段元数据中，以便更好地控制运动。

字幕生成

针对图像，作者使用InternVL2.0为每个样本生成详细字幕。
对于视频，先用InternVL2.0生成关键帧字幕，再借助Tarsier2生成视频整体描述。Tarsier2能直接识别相机运动类型（如缩放、平移），相比以往方法，无需单独的运动预测模型，简化了流程。最后，利用Qwen2将关键帧字幕和视频字幕合并为统一描述，确保内容连贯。此外，将RAFT得出的运动分数融入字幕，能进一步优化运动控制，用户在输入提示词时可指定不同运动动态，引导视频生成。

实验

Goku在多个基准测试中，无论是文本到图像还是文本到视频的生成任务，都展现出了顶尖的性能。

文本到图像：Goku-T2I在GenEval、T2I-CompBench和DPG-Bench测试中表现优异，在文本与图像对齐以及紧密遵循提示词方面，超越了PixArt-α、DALL-E 2/3和SDXL等知名模型。
文本到视频：Goku-T2V在UCF-101和VBench测试中成绩突出，生成的视频高保真、丰富多样且充满动态感。在16个评估维度上，它的Fréchet视频距离达到最优，在人体动作呈现、动态运动和物体生成等方面表现卓越。

本文由mdnice多平台发布

香港大学提出Goku 基于流的视频生成基础模型