头图

出品人:Towhee 技术团队 王翔宇、顾梦佳

从与任务无关的预训练深度模型中为下游任务转移知识是计算机视觉研究中的一个重要课题。 随着计算能力的增长,现在已经有了大规模的开源视觉语言预训练模型和大量的数据。 因此,针对视频分类任务的知识迁移能够有效提高视频分类的性能和训练速度。通过简单而有效的调整范例,该方法能够在各种视频识别场景(即 zero-shot、few-shot、一般识别)实现了最先进的性能和高效的训练。 特别是,它在动作视频数据集 Kinetics-400 上达到了最先进准确率 87.8% 。
图片

Illustration of transferring vision-language pre-trained models for video recognition.

传统方法会随机初始化用于视觉分类的线性分类头,但无法将文本编码器用于下游视觉识别任务。 将预训练的视觉语言模型迁移到视频识别任务,修改了线性分类器的角色,并用来自预训练模型的不同知识替换了分类器。 它利用经过良好预训练的语言模型为高效的迁移学习生成良好的语义目标。 这种新的范式认为同类样本所包含的语义信息是关联的,因此对投影矩阵进行了一些变换:随机采样行向量 、使行向量相互正交、从视觉统计知识初始化来进行最大化标签之间的关联。

相关资料:

代码地址:https://github.com/whwu95/Tex...
论文链接:Revisiting Classifier: Transferring Vision-Language Models for Video Recognition


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI