出品人:Towhee 技术团队 顾梦佳

视频识别一直以端到端的学习范式为主,即首先使用预训练图像模型的权重初始化视频识别模型,然后用视频进行端到端训练。虽然这种方式使得视频网络能够从预训练的图像模型中受益,但是它需要大量的计算和内存资源来微调视频模型。另外,如果直接使用预训练好的图像模型而不通过微调主干网络,这样获得的图像特征会导致最终的视频网络结果不佳。幸运的是,CLIP 最近的进展为视觉识别任务的新路径铺平了道路。这些模型在大型开放词汇图像-文本对数据上进行了预训练,学习了具有丰富语义的强大视觉表示。在此基础上,高效视频学习框架 EVL 能够直接训练具有冻结 CLIP 特征的高质量视频识别模型。广泛的实验证明了 EVL 的有效性,并发现它是一种简单有效的流水线,具有更高的准确性,同时降低了训练和推理成本。

EVL ArchitectureEVL 设计了一种有效的迁移学习方法,能够利用冻结的 CLIP 图像特征进行视频识别。为了从 CLIP 图像编码器动态收集帧级空间特征,该框架采用了一个轻量级的 Transformer 解码器并学习了一个查询 token。此外,它在每个解码器层中采用了局部时间模块,以便发现来自相邻帧及其注意力图的时间线索。最后,模型使用全连接层来预测视频类别的分数。

相关资料:

代码地址:https://github.com/opengvlab/...
论文链接:Frozen CLIP Models are Efficient Video Learners
更多资料:ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI