【AAAI 2023】针对视频分类的知识迁移

出品人：Towhee 技术团队王翔宇、顾梦佳

从与任务无关的预训练深度模型中为下游任务转移知识是计算机视觉研究中的一个重要课题。随着计算能力的增长，现在已经有了大规模的开源视觉语言预训练模型和大量的数据。因此，针对视频分类任务的知识迁移能够有效提高视频分类的性能和训练速度。通过简单而有效的调整范例，该方法能够在各种视频识别场景（即 zero-shot、few-shot、一般识别）实现了最先进的性能和高效的训练。特别是，它在动作视频数据集 Kinetics-400 上达到了最先进准确率 87.8% 。

Illustration of transferring vision-language pre-trained models for video recognition.

传统方法会随机初始化用于视觉分类的线性分类头，但无法将文本编码器用于下游视觉识别任务。将预训练的视觉语言模型迁移到视频识别任务，修改了线性分类器的角色，并用来自预训练模型的不同知识替换了分类器。它利用经过良好预训练的语言模型为高效的迁移学习生成良好的语义目标。这种新的范式认为同类样本所包含的语义信息是关联的，因此对投影矩阵进行了一些变换：随机采样行向量、使行向量相互正交、从视觉统计知识初始化来进行最大化标签之间的关联。

【AAAI 2023】针对视频分类的知识迁移

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

书籍-《偏最小二乘回归》

Orange Pi 5 Pro-RK3588(s)开发板快速入门

书籍-《顺序变化检测和假设检验》

书籍-《医学图像分析（论文版）》

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读