日前,计算机人工智能领域顶会AAAI(Association for the Advancement of Artificial Intelligence)在加拿大盛大召开。快手商业化算法团队的论文《Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning》成功被大会接收。本篇论文所探讨的方案已经成功应用于快手业务中,取得了显著的效果。本文将对这篇论文进行深入的解读,探讨其背后的技术原理和实践应用。
论文标题:
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning
论文作者:
Kaibin Tian, Yanhua Cheng, Yi Liu, Xinglin Hou, Quan Chen, Han Li
论文链接:
https://arxiv.org/abs/2401.00701
代码链接:
https://github.com/adxcreative/EERCF
内容摘要
近年来,从网络收集大规模图像文本进行预训练的文本图像匹配模型(比如 CLIP)得到迅速的发展。CLIP4Clip 初步实现将预训练的 CLIP 迁移到文本检索视频领域。
在此基础上,当前表现卓越的方法主要由两种方式实现:1)设计一个融合模块将文本特征与视觉特征进行融合,这使得检索的范式从双塔变为单塔;2)利用更细粒度的视觉和文本特征来实现对齐。虽然检索的准确性变好了,然而这些方法的在线特征匹配计算的花费却快速上升。如下图所示(整体趋势从左下角向右上角发展):
因此我们提出了一个 recall-reranking 的两阶段检索架构算法 EERCF,不仅考虑到通过细粒度信息检索提高检索的准确性,同时兼顾到检索的效率。在四个 benchmark 上的大量实验展示了我们方法的优越性:我们的方法在保持与当前最先进方法可比的性能的同时,跨模态匹配计算量几乎少了 50 倍。
研究背景
随着快手、TikTok 和 YouTube 等平台每天上传的视频数量的爆炸性增长,以及 AIGC 视频内容的发展,文本到视频的检索成为了多模态表示学习的一个关键且基本任务。
近期,从网络收集大规模的图文对中预训练的文本-图像匹配模型 CLIP 在多种视觉-语言下游任务上展示了巨大的成功。基于学习到的良好视觉文本表征,CLIP4Clip 进行了初步研究,它通过简单的 MeanPooling 将一个视频的多帧表征合并为一个视频表征,从而实现将 CLIP 权重迁移到文本-视频匹配,并取得了不错的效果。然而不同于图像中相对较少的视觉信息,视频中的视觉信息存在冗余且增加了时间维度上的变化。因此直接使用 MeanPooling 来表征视觉信息时不合适的。解决上述问题的 CLIP 变体的发展可以分为两个主要类别:一类专注于设计重量级的融合模块,以加强视觉(视频,帧)和文本(句子,词语)表征之间的交互,以更好地对齐两种模态。另一类通过保留包括视频级和帧级在内的多粒度表征,优化由文本驱动的视频表征表示。
上面的方法虽然带来了很好的性能提升,但是文本-视频相似度计算的成本却极大的增加了,检索的效率降低了。此外过度细粒度的计算也可能会放大视频局部的噪声,导致检索效果下降。为了在文本到视频检索的效果与效率之间做出更好的权衡,本文提出了一种新方法,即 EERCF,实现了从粗到细的自适应视觉表示学习,并设计了先召回再重排的检索流程。
具体来说,在训练阶段,我们设计了一个无参数的文本门控交互模块(TIB)进行细粒度视频表征学习,并嵌入了额外的皮尔逊约束来优化跨模态表征学习。在检索阶段,我们使用粗粒度视频表征进行快速召回 top-k 候选者,然后由细粒度视频表征重新排名。
我们的主要贡献如下:
我们引入了一个无额外参数需要学习的文本门控交互模块 TIB,用于多粒度自适应视频表征学习,同时引入了 inter-Feature 对比损失和 intra-feature Pearson 约束损失的组合,以优化表征学习。
我们提出了一个两阶段文本到视频检索策略,实现了效果与效率之间的最佳平衡,与提出时候的 SOTA 方法相比,性能相近的情况下,而在 MSRVTT-1K-Test、MSRVTT-3K-Test、VATEX 和 ActivityNet 上进行跨模态相似度匹配的浮点运算次数(FLOPs)分别是 SOTA 的 14, 39, 20 和 126 分之一。
表征学习
- 文本驱动的细粒度视觉表征模块:TIB
TIB 模块的输入是 Nv 个细粒度的视觉表征(帧级别或者 Patch 级别),一个文本表征。通过计算细粒度的视觉表征与文本表征的相似度,加权出最后的视频表征。其中会有一个超参数控制相似度分布的陡峭程度,从而增强对于关键信息的关注程度。
- Inter-Feature 对比学习与 intra-feature Pearson 约束损失
Inter-Feature 对比学习是在样本维度,我们通过将视频-文本匹的一个 pair 对中特征视为正例对,而相同 batch 中的其他不匹配的 pair 对视为负例对,采用了 infoNCE 损失函数。
补充一下 Pearson Constraint 的知识:
Intra-feature Pearson 约束损失是在通道维度,对于一个 batch 中视频特征的通道与文本特征的通道计算 Pearson 距离,从而实现了松弛的跨模态的通道 Correlation Reduction,文本特征的第 i 个通道与视频特征的第 i 个通道保持强的相关性,削弱但不完全消除与其他 j(j≠i)通道的相关性。同时 Pearson 距离也有助于保持小的数值变化,有利于训练过程中的稳定性。
两阶段策略
考虑到效率,我们采用了两阶段检索策略来使用从粗到细的视觉表示。有三种级别的视频表示,包括不被文本驱动的视频级视觉表征以及 TIB 模块生成的基于帧级和 Patch 级的视觉特征。视频级视觉表征用于快速召回前 k 个候选,然后由另外两个细粒度的视觉表征进行重排。
实验效果
我们对比了传统方法,和基于 CLIP 权重的 SOTA 方法。评估指标是根据文本从候选集中选出最匹配视频,是否在候选集中排位前 K 个,对应于 R@K。下表展示了 EERCF 在 MSRVTT-1K-Test 上的性能与效率平衡的优越性:
我们在下图中说明了粗到细的重新排序过程,图中显示直接使用视频表征召回可能会得到混乱的结果,而 TIB 可以逐渐挖掘相关的帧级或 Patch 级线索以获得准确的排序结果。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。