【ECCV 2022】高效视频学习框架 EVL，CLIP 助力视频识别

出品人：Towhee 技术团队顾梦佳

视频识别一直以端到端的学习范式为主，即首先使用预训练图像模型的权重初始化视频识别模型，然后用视频进行端到端训练。虽然这种方式使得视频网络能够从预训练的图像模型中受益，但是它需要大量的计算和内存资源来微调视频模型。另外，如果直接使用预训练好的图像模型而不通过微调主干网络，这样获得的图像特征会导致最终的视频网络结果不佳。幸运的是，CLIP 最近的进展为视觉识别任务的新路径铺平了道路。这些模型在大型开放词汇图像-文本对数据上进行了预训练，学习了具有丰富语义的强大视觉表示。在此基础上，高效视频学习框架 EVL 能够直接训练具有冻结 CLIP 特征的高质量视频识别模型。广泛的实验证明了 EVL 的有效性，并发现它是一种简单有效的流水线，具有更高的准确性，同时降低了训练和推理成本。

EVL ArchitectureEVL 设计了一种有效的迁移学习方法，能够利用冻结的 CLIP 图像特征进行视频识别。为了从 CLIP 图像编码器动态收集帧级空间特征，该框架采用了一个轻量级的 Transformer 解码器并学习了一个查询 token。此外，它在每个解码器层中采用了局部时间模块，以便发现来自相邻帧及其注意力图的时间线索。最后，模型使用全连接层来预测视频类别的分数。

【ECCV 2022】高效视频学习框架 EVL，CLIP 助力视频识别

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

DeepSeek(私有化)+IDEA+Dify+微信搭建AI助手保姆级教程

人工智能与机器学习入门：决策树应用

如何给本地部署的 DeepSeek-R1投喂数据

AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025

awesome-ai4s重磅开源！200余篇AI for Science前沿学术论文汇总，涵盖中文解读，持续更新ing

【ECCV 2022】高效视频学习框架 EVL，CLIP 助力视频识别

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

DeepSeek(私有化)+IDEA+Dify+微信 搭建AI助手保姆级教程

人工智能与机器学习入门：决策树应用

如何给本地部署的 DeepSeek-R1投喂数据

AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025

awesome-ai4s重磅开源！200余篇AI for Science前沿学术论文汇总，涵盖中文解读，持续更新ing

DeepSeek(私有化)+IDEA+Dify+微信搭建AI助手保姆级教程