出品人:Towhee 技术团队
尽管 CLIP4Clip 实现了跨模态文本/视频检索,但该网络结构依然存在一些局限性或改进空间。于是 2022 年初,便有 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。 在视频检索任务中,改良后的模型大幅提升了在各大文本视频数据集上的精度。
Overview of DRL for Text-Video Retrieval
CLIP4Clip 在计算文本和视频的相似度时,只考虑了两个模态的总体表征,缺少细粒度的交互。比如,当文字描述只对应了视频的一部分帧时,如果抽取视频的整体特征,那么模型可能会被其它视频帧的信息干扰与误导。DRL 对 CLIP4Clip 提出两个重要改进,一个是 Weighted Token-wise Interaction,进行相似度的稠密预测,通过 max 操作找到潜在的激活的 token。另一个是 Channel Decorrelation Regularization,通道去相关正则可以减少通道间信息的冗余和竞争,使用协方差矩阵度量通道上的冗余。
相关资料:
- 模型用例:
video-text-embedding/drl - 论文:
Disentangled Representation Learning for Text-Video Retrieval - 更多资料:
视频多模态预训练/检索模型
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。