CVPR(IEEE Conference on Computer Vision and Pattern Recognition)是国际计算机视觉和模式识别领域的顶级学术会议之一。CVPR 2025 将于 6 月 11 日至 6 月 15 日在美国田纳西州纳什维尔举办,本届共收到了 13,008 篇有效论文提交,最终有 2,878 篇被接收,整体录用率约为 22.1%。其中,快手共有 12 篇论文入选 CVPR2025,涵盖视频质量评估、多模态数据集构建与基准测试、动态 3D 头像重建、动态 4D 场景模拟、视频生成与增强技术、可控视频生成与编辑等多个方向(排名不分先后)。
美国当地时间 6 月 11 日,快手可灵 AI 事业部,视觉生成与互动中心负责人万鹏飞受邀到《From Video Generation to World Models》分享快手可灵大模型在视频生成技术领域的最新突破与前沿进展!
图片

论文精选

论文 01:Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content
| 项目地址:https://koala36m.github.io/

| 论文地址:https://arxiv.org/pdf/2410.08260

| 论文简介:随着视觉生成技术的不断进步,视频数据集的规模呈指数级增长,而这些数据集的质量对视频生成模型的性能至关重要。我们认为,时间分割、详细字幕和视频质量过滤是决定数据集质量的三个关键因素。然而,现有数据集在这些方面存在诸多不足。为了解决这些问题,我们推出了 Koala-36M,这是一个大规模且高质量的视频数据集,具备准确的时间分割、详细的字幕和卓越的视频质量。我们的核心方法在于提高细粒度条件与视频内容之间的一致性。具体而言,我们使用线性分类器对概率分布进行分析,以提高过渡检测的准确性,从而确保更好的时间一致性。接着,我们为分割后的视频提供结构化的字幕,平均长度为 200 字,以改善文本与视频的对齐。此外,我们开发了视频训练适用性评分(VTSS),整合多个子指标,帮助我们从原始语料库中筛选出高质量视频。最后,我们在生成模型的训练过程中引入多个指标,进一步优化细粒度条件。实验结果表明,我们的数据处理流程有效提升了数据集的质量,证明了 Koala-36M 数据集的优越性。
图片

论文 02:KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception 
| 论文地址:https://arxiv.org/abs/2503.10259

| 论文简介:视频质量评价旨在预测视频的感知质量,随着流媒体平台的发展,近年来受到了越来越多的关注。由于运动模糊、特定失真等因素的影响,视频中不同区域的质量存在差异。识别视频中各区域的局部质量,不仅有助于整体质量的评估,还能为精细化的视频增强或编码呀策略提供指导。然而,区域级质量的标注成本较高,并且相关数据集中缺乏真实标签,这进一步增加了局部感知在实际应用中的难度。受人类视觉系统启发,我们提出了一种针对多样视频的质量评价算法 KVQ(Kuaishou Visual Quality)。该框架旨在有效评估显著性和局部纹理,从而更好地辅助整体质量的判断。KVQ 框架通过融合窗口注意力机制提取视觉显著性并分配注意力,同时引入局部感知约束,以减少区域纹理感知对邻域信息的依赖。在五个主流 VQA 基准数据集上的多种评估场景中,KVQ 在性能上均显著优于当前最先进的方法。此外,为了更好地评估局部感知能力,我们还构建了一个具有区域级标注的新数据集 LPVQ。实验结果表明,KVQ 在识别局部失真方面表现出色。
图片
论文 03:StyleMaster: Stylize Your Video with Artistic Generation and Translation
| 论文地址:https://arxiv.org/pdf/2412.07744

| 论文简介:在视频生成模型中,风格控制一直备受关注。然而,现有方法常常生成与给定风格相去甚远的视频,导致内容泄漏,并且在将一个视频转换为所需风格时表现不佳。我们的首要观察是,风格提取阶段至关重要,而现有方法往往强调全局风格却忽视了局部纹理。为了在引入纹理特征的同时防止内容泄漏,我们基于提示词-图像块的相似性过滤掉与内容相关的图像块,同时保留风格相关的块;在全局风格提取方面,我们通过模型幻觉生成配对风格数据集,并用对比学习的方式增强了提取风格的一致性。此外,为了弥合图像到视频的差距,我们在静态视频上训练了一个轻量级运动适配器,这在隐式上增强了风格化程度,并使我们用图像训练的模型能够无缝的应用于生成视频。得益于这些改进,我们的方法 StyleMaster 不仅在风格相似性和时间一致性方面取得了显著提升,还可以通过 ControlNet 推广应用到视频风格迁移。大量实验和可视化结果表明,StyleMaster 显著优于竞争对手,能够有效生成与文本内容一致且与参考图像风格高度相似的高质量风格化视频。
图片
论文 04:Towards Precise Scaling Laws for Video Diffusion Transformers
| 论文地址:https://arxiv.org/pdf/2411.17470

| 论文简介:鉴于视频扩散 Transformer 的训练成本极为高昂,在有限的数据和计算预算下实现最优性能尤为关键。为此,我们需要在大规模训练开始前,精确确定最佳的模型规模与训练超参数配置。尽管规模定律(scaling laws)已应用于语言模型的性能预测,但其在视觉生成模型中的存在性与准确推导仍待探索。本文系统分析了视频扩散 Transformer 的规模定律并证实其存在性。更重要的是,我们发现:与语言模型不同,视频扩散模型对学习率和批量大小这两个通常未被精确建模的超参数更为敏感。为此,我们提出新型规模定律,可预测任意模型规模与计算预算下的最优超参数配置。实验表明,在 1e10 TFlops 的计算约束下,采用本方法优化的模型在保持同等性能水平的同时,推理成本较传统方法降低 40.1%。更重要的是,我们建立了验证损失、任意模型规模与计算预算三者间更广义且精确的数学关系,这使得针对实际推理成本约束下可能采用的次优模型规模也能进行性能预测,从而实现更优的权衡取舍。
image.png

论文 05:Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation

| 论文地址:https://arxiv.org/pdf/2411.14423

| 论文简介:要实现动态场景的真实模拟,必须准确捕捉多样化的材质属性,并基于物理原理对复杂物体交互进行精确建模。然而,现有方法通常局限于少数基础材质类型,其可预测参数有限,难以真实反映现实世界中材质的复杂性。为此,我们提出了一种创新方法——PhysFlow,它通过融合多模态基础模型与视频扩散技术,实现了更强大的 4D 动态场景模拟能力。该方法利用多模态模型识别材质类型并通过图像查询初始化材质参数,同时推断 3D 高斯泼溅点以构建精细场景表征。我们进一步采用基于可微分物质点法(MPM)和光流引导的视频扩散技术优化材质参数,而非依赖渲染损失或分数蒸馏采样(SDS)损失。这一融合框架能够精准预测真实场景中的动态交互并实现逼真模拟,从而在基于物理的仿真中提高了准确性与灵活性。
图片

论文 06:CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

| 论文地址:https://arxiv.org/abs/2406.10462

| 论文简介:交错图文生成已成为一项关键的多模态任务,其目标是根据用户问题生成视觉与文本内容交织的序列。近年来,多模态大语言模型(MLLMs)取得了显著进展,但由于训练数据质量不足,生成具有叙事连贯性、实体与风格一致性的图文交织序列仍存在挑战。围绕这一方向,我们提出了 CoMM——一种高质量的交错图文多模态数据集,旨在提升生成内容在连贯性、一致性及图文对齐性上的表现。CoMM 最初从多样化的来源获取原始数据,重点关注教学内容和视觉叙事,为连贯一致的内容奠定基础。为进一步提高数据质量,我们设计了一种多视角过滤策略,利用先进的预训练模型来确保文本发展性、插入图像的一致性以及它们之间的语义匹配。各种质量评估指标被设计用来证明经过过滤的数据集的高质量。同时,在各种下游任务上的广泛少样本实验表明,CoMM 在显著增强 MLLMs 的上下文学习能力方面效果显著。此外,我们提出了四项新任务以支持全面评估 MLLMs 的交错生成能力。
图片
论文 07:Libra-Merging: Importance-redundancy and Pruning-merging Trade-off for Acceleration Plug-in in Large Vision-Language Model
| 论文地址:https://cvpr.thecvf.com/virtual/2025/poster/34817

| 论文简介:随着大型视觉语言模型(LVLM)的迅猛发展,其高昂的计算成本已成为制约实际应用的关键瓶颈。现有的视觉标记压缩方法主要面临两大核心挑战:如何在目标标记识别中平衡重要性和冗余性,以及如何权衡标记压缩过程中剪枝与合并。为应对这些挑战,我们提出了一种创新性的视觉标记压缩方案——Libra-Merging。该方案的创新点体现在以下两个方面:引入了一种位置驱动的标记识别机制,能够在重要性和冗余性之间实现更优的权衡;采用了一种基于重要性引导的分组合并策略,能够在保留关键信息的同时有效避免目标标记的失真,从而平衡压缩过程中的剪枝与合并。
实验结果表明,在 LLaVA 系列模型上,该方法可将推理计算量(Flops)降低至原量的 37%,且性能无明显下降。此外,在视频理解任务中,在保持性能稳定的同时,减少了 57%GPU 训练时间。值得一提的是,作为即插即用模块,Libra-Merging 不仅适用于多种 LVLM 模型,而且在所有测试模型中均展现出显著的加速效果。
图片
论文 08:GPAvatar: High-fidelity Head Avatars by Learning Efficient Gaussian Projections

| 论文地址:https://openaccess.thecvf.com//content/CVPR2025/papers/Feng_G...

| 论文简介:现有的基于辐射场的头像方法通常依赖于预先计算的显式先验(例如网格、点)或神经隐式表示,这使得在实现高保真度的同时兼顾计算效率和低内存消耗变得具有挑战性。为了解决这一问题,我们提出了 GPAvatar,这是一种新颖且高效的基于高斯点绘制的方法,用于从单目视频中重建高保真的动态 3D 头像。我们将 3D 空间中的高斯扩展到一个高维嵌入空间,该空间包含高斯的空间位置和头像表情,从而能够表示具有任意姿势和表情的头像。为了实现基于点绘制的光栅化,我们学习了一种线性变换,将每个高维高斯投影回 3D 空间,这足以捕捉表情变化,而无需使用复杂的神经网络。此外,我们提出了一种自适应加密策略,动态地将高斯分配到表情变化较大的区域,从而改善面部细节的表示。实验结果表明,在三个数据集上,我们的方法在渲染质量和速度上优于现有的最先进方法,同时减少了训练和渲染中的内存使用。
论文 09:PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution
| 论文地址:https://openaccess.thecvf.com//content/CVPR2025/papers/Du_Pat...

| 论文简介:预训练的视频生成模型在视频超分辨率(VSR)任务中展现出巨大潜力,但现有方法在应用于全尺寸 VSR 时仍面临两大关键限制:一是密集全注意力计算带来的过高计算开销,二是固定输出分辨率导致的灵活性不足。为了突破这些限制,我们首次探索了基于视频扩散先验的逐块超分辨率方法。然而,这一探索面临显著挑战——预训练的视频扩散模型并不天然具备块级细节生成能力。为此,我们提出了一种创新解决方案 PatchVSR,其核心是双流适配器架构。该架构通过两个并行的特征提取分支实现条件引导:块分支专注于从输入块中提取局部特征以保持内容保真度,而全局分支则通过处理调整尺寸后的完整视频来捕获上下文语义信息,从而有效弥补由块边界导致的语义不完整性。我们还创新性地引入了块位置编码机制,将每个块的空间位置信息显式注入模型,使块合成过程能够更好地融入全局视频帧的上下文环境。实验验证表明,PatchVSR 能够高效生成块级的高保真细节。为确保多块增强后的视觉一致性,我们专门设计了多块联合调制策略。得益于块式处理的灵活性,我们的方法能够基于 512×512 分辨率的基础模型实现极具竞争力的 4K 超分辨率效果,同时保持显著的计算效率优势。这一突破为高分辨率视频增强提供了新的技术路径。
图片

论文 10:SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding
| 论文地址:https://stan-lei.github.io/KwaiMM-Dialogue/paper2-seriesbench...

| 论文简介:随着多模态大语言模型(MLLMs)的快速发展,VideoQA 能力得到大幅度提升。然而,现有任务主要关注独立视频片段的 VideoQA 任务,且侧重于评估"视觉元素"如人类行为和物体状态。事实上,现代视频、直播往往包含复杂连续的叙事结构,通常以系列剧集形式呈现。为应对这一挑战,我们围绕多视频 VideoQA 任务场景提出了 SeriesBench 基准测试——由 105 个精心策划的叙事驱动系列视频组成,涵盖 28 个需要深度叙事理解的专业任务。我们围绕多视频 VideoQA 任务提出了创新的叙事推理框架 PC-DCoT。在 SeriesBench 上的大量实验结果表明,PC-DCoT 能带来显著效果提升。 
图片
论文 11:SketchVideo: Sketch-based Video Generation and Editing
| 项目地址:http://geometrylearning.com/SketchVideo/

| 论文地址:https://arxiv.org/pdf/2503.23284

| 论文简介:基于文本提示或图像的视频生成与编辑技术已取得显著进展,然而仅通过文本精确控制全局布局与几何细节仍存在挑战,同时通过图像实现运动控制与局部修改也有待突破。本文旨在实现基于草图的空间与运动控制视频生成,并支持对真实或合成视频的细粒度编辑。我们在 DiT 视频生成模型基础上,提出了一种内存高效的控制结构,通过草图控制模块预测跳跃式 DiT 块的残差特征。用户可在任意时间点的一至两帧关键帧上进行草图绘制以简化交互。为将此类时间稀疏的草图条件传播至所有帧,我们提出跨帧注意力机制来分析关键帧与各视频帧的关联。针对基于草图的视频编辑,我们额外设计了视频插入模块,确保新编辑内容与原始视频的空间特征及动态运动保持连贯。推理阶段采用潜在融合技术以实现未编辑区域的精准保留。大量实验表明,本研究的 SketchVideo 系统在可控视频生成与编辑方面展现出卓越性能。
图片

论文 12:STDD: Spatio-Temporal Dual Diffusion for Video Generation
| 论文地址:https://cvpr.thecvf.com/virtual/2025/poster/35022

| 论文简介:扩散概率模型正逐渐成为数据生成的基石,尤其在高质量图像生成领域表现突出。作为其扩展,视频扩散生成亟需一种具有原则性的时间序列扩散方法,而现有视频扩散方法主要聚焦于空间域扩散。本研究提出一种显式的时空双重扩散方法(STDD),通过将标准扩散模型扩展为时空联合扩散模型,实现空间域与时间序列的联合信息传播与消减。从数学角度推导出具有可解析特性的双扩散过程,该过程能够在时序累积信息的同时兼顾空间域特征。相应地,我们理论推导了时空概率反向扩散过程,并提出加速采样策略以降低推理成本。该时空双重扩散机制使前一帧信息能够传递至当前帧,从而有效提升视频内容的时序一致性。大量实验表明,所提出的 STDD 方法在视频生成/预测以及文本到视频生成任务中展现出优于现有最优方法的性能。
图片

结语

作为一家以人工智能为核心驱动力和技术依托的科技公司,快手致力于持续深化研发投入,将技术打造为驱动业务增长的强劲引擎。同时,公司将在人工智能领域不断探索,积极推动前沿技术在业务场景中的落地应用。欲获取相关论文的详尽内容与深度解读,敬请关注快手技术公众号的后续更新。


快手技术
22 声望8 粉丝