更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站:https://www.chenbaiqi.com
论文链接
代码链接
项目地址
作者探索使用测试时间缩放(Test-Time Scaling)通过增加推理时间计算而不是训练成本来改进文本到视频的生成。他们将视频生成视为一个搜索问题,由验证者和启发式指导。有两种策略:具有更多噪声样本的线性搜索和帧树(Tree-of-Frames),这是一种自适应扩展和修剪帧分支的自回归方法。实验表明,更高的测试时间计算始终能提高视频质量。
方法:如何在测试时扩展视频生成
与大语言模型(LLMs)相比,视频生成中的测试时间缩放面临着独特的挑战。例如,由于视频作为帧序列的性质,以及使用复杂的直接缩放的多步扩散模型,因此需要空间质量和时间一致性。为了解决这个问题,视频生成被重新解释为路径搜索问题:通过增加推理计算来找到从高斯噪声到高质量视频的最佳轨迹。
该框架由三个组成部分组成:
- Video Generator(视频生成器):使用扩散从文本提示中生成视频。
- Test Verifier(测试验证器):根据文本提示评估视频质量。
- Heuristic Search Algorithm(启发式搜索算法):通过初始噪声样本引导搜索以选择最佳视频路径。
随机线性搜索
随机线性搜索是一种简单的测试时间缩放(TTS)方法,它将多个高斯噪声样本完全去噪为视频序列,并根据验证者分数选择最佳样本。它与样本数成线性关系。
这种方法将每个样本视为 $T$ 步的独立退化树(每个非叶节点恰好有一个子节点),形成 $N$ 棵树的森林。虽然易于实现,但它有两个关键限制:由于没有优化的详尽遍历和样本之间缺乏交互而导致的效率低下,导致更多的随机性和更慢的缩放。
帧树搜索、
帧树搜索(ToF)不是从多个噪声样本中完全生成和评估整个视频,而是使用由测试验证器引导的自回归、分阶段生成,从而降低计算成本,同时提高视频质量。它由三个阶段组成:
- 初始框架生成:重点关注与文本提示的强对齐(例如,颜色、布局)。
- 中间帧生成:考虑到主体一致性、运动稳定性和真实感。
- 评估整体质量并及时对齐 。
ToF使用三种核心技术:
- 图像级对齐:在去噪期间逐步评估帧,从而能够及早拒绝低质量候选帧,并将计算重点放在有希望的候选帧上。
- 分层提示:在不同阶段提取不同的提示,以确保时间连贯性和语义对齐。
- 启发式剪枝:从噪声样本构建动态搜索树,根据质量分数在每一步扩展和剪枝。
尽管最坏情况下的时间复杂度保持不变,但选择性分支显著降低了它($O(TN) \to O(N + T)$)。
实验
测试时间缩放持续提高各种模型和验证器的视频生成质量。性能随着更高的推理预算而提高,尽管最终会趋于平稳。不同的验证器强调视频质量的不同方面,组合多个验证器通过减少偏差进一步提高结果。
较大的模型从TTS中受益更多,因为它们探索搜索空间的能力更大,而较小的模型显示出有限的改进。框架树被证明比随机线性搜索更有效。
TTS提高了大多数评估维度的性能,特别是对于常见的、易于评估的提示,如场景、对象和画质。然而,对于复杂的时间属性,如运动平滑度和闪烁,改进具有挑战性,这对于当前模型来说仍然具有挑战性。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。