Video-T1：让视频生成更高效、更优质的新路径

更多专栏文章点击查看：
LLM 架构专栏
 大模型架构专栏文章阅读指南
 Agent系列
 强化学习系列
欢迎加入大模型交流群：加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站：https://www.chenbaiqi.com

论文链接
 代码链接
 项目地址
作者探索使用测试时间缩放（Test-Time Scaling）通过增加推理时间计算而不是训练成本来改进文本到视频的生成。他们将视频生成视为一个搜索问题，由验证者和启发式指导。有两种策略：具有更多噪声样本的线性搜索和帧树（Tree-of-Frames），这是一种自适应扩展和修剪帧分支的自回归方法。实验表明，更高的测试时间计算始终能提高视频质量。

方法：如何在测试时扩展视频生成

与大语言模型（LLMs）相比，视频生成中的测试时间缩放面临着独特的挑战。例如，由于视频作为帧序列的性质，以及使用复杂的直接缩放的多步扩散模型，因此需要空间质量和时间一致性。为了解决这个问题，视频生成被重新解释为路径搜索问题：通过增加推理计算来找到从高斯噪声到高质量视频的最佳轨迹。

该框架由三个组成部分组成：

Video Generator（视频生成器）：使用扩散从文本提示中生成视频。
Test Verifier（测试验证器）：根据文本提示评估视频质量。
Heuristic Search Algorithm（启发式搜索算法）：通过初始噪声样本引导搜索以选择最佳视频路径。

随机线性搜索

随机线性搜索是一种简单的测试时间缩放（TTS）方法，它将多个高斯噪声样本完全去噪为视频序列，并根据验证者分数选择最佳样本。它与样本数成线性关系。

这种方法将每个样本视为 $T$ 步的独立退化树（每个非叶节点恰好有一个子节点），形成 $N$ 棵树的森林。虽然易于实现，但它有两个关键限制：由于没有优化的详尽遍历和样本之间缺乏交互而导致的效率低下，导致更多的随机性和更慢的缩放。

帧树搜索、

帧树搜索（ToF）不是从多个噪声样本中完全生成和评估整个视频，而是使用由测试验证器引导的自回归、分阶段生成，从而降低计算成本，同时提高视频质量。它由三个阶段组成：

初始框架生成：重点关注与文本提示的强对齐（例如，颜色、布局）。
中间帧生成：考虑到主体一致性、运动稳定性和真实感。
评估整体质量并及时对齐 。

ToF使用三种核心技术：

图像级对齐：在去噪期间逐步评估帧，从而能够及早拒绝低质量候选帧，并将计算重点放在有希望的候选帧上。
分层提示：在不同阶段提取不同的提示，以确保时间连贯性和语义对齐。
启发式剪枝：从噪声样本构建动态搜索树，根据质量分数在每一步扩展和剪枝。

尽管最坏情况下的时间复杂度保持不变，但选择性分支显著降低了它（$O(TN) \to O(N + T)$）。

实验

测试时间缩放持续提高各种模型和验证器的视频生成质量。性能随着更高的推理预算而提高，尽管最终会趋于平稳。不同的验证器强调视频质量的不同方面，组合多个验证器通过减少偏差进一步提高结果。

较大的模型从TTS中受益更多，因为它们探索搜索空间的能力更大，而较小的模型显示出有限的改进。框架树被证明比随机线性搜索更有效。

TTS提高了大多数评估维度的性能，特别是对于常见的、易于评估的提示，如场景、对象和画质。然而，对于复杂的时间属性，如运动平滑度和闪烁，改进具有挑战性，这对于当前模型来说仍然具有挑战性。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理
 2. 微调 DeepSeek LLM：使用监督微调（SFT）与 Hugging Face 数据
 3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1：了解GRPO和多阶段训练
 5. 深度探索：DeepSeek-R1 如何从零开始训练
 6. DeepSeek 发布 Janus Pro 7B 多模态模型，免费又强大！

本文由mdnice多平台发布

Video-T1：让视频生成更高效、更优质的新路径

方法：如何在测试时扩展视频生成

随机线性搜索

帧树搜索、

实验

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

祛魅最热门的通用Agent赛道