出品人:Towhee 技术团队
CLIP4Clip 以跨模态图文模型 CLIP 为基础,成功地实现了文字/视频检索任务。无论是由文字寻找相关内容视频,还是自动为视频匹配最合适的描述,CLIP4Clip 都能帮你做到。通过大量的消融实验,CLIP4Clip 证明了自己的有效性,并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集上实现了 SoTA 结果。
CLIP4Clip: Main Structure
CLIP4Clip 基于预训练好的图文模型,通过迁移学习或者微调完成视频检索的任务。它使用预训练的 CLIP 模型作为主干网络,解决了从帧级输入的视频片段检索任务,并使用了无参数类型 、序列类型和紧密类型相似性计算器来获得最终结果。
相关资料:
- 模型用例: video-text-embedding/clip4clip
- 论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
- 更多资料:
CLIP4Clip: CLIP 再下一城,利用CLIP实现视频检索
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。