头图

出品人:Towhee 技术团队 王翔宇、顾梦佳视频理解包括许多有趣的任务理解空间和时间信息,其中最具挑战性的问题之一就是特征提取。由于无约束视频冗长和复杂时间结构,从未修剪的视频提取上下文视觉表征变得十分困难。不同于现有的方法使用预训练的骨干网络作为黑盒来提取视觉表示,基于感知的多模态表征 PMR 旨在通过可解释的机制提取与上下文最相关的信息。人类通常通过三个主要因素之间的交互来感知视频,即参与者、相关对象和周边环境。 因此设计一种方法能够提取可解释上下文的视频表征非常关键,这样就能够捕获每个关键因素并建模它们之间的关系。PMR 尝试将人类感知过程转化为对角色、物体、和环境的建模。通过描述视频段落和时序动作检测两种任务,它证明了基于人类感知的上下文表征在视频理解中的有效性。

图片

The architecture of PMR. 受人类感知视频的方式启发(即在特定时间,人类会查看整个场景,然后定位主要Actor,并感知他们与之交互的对象),PMR 在视频的每个输入片段的空间场景中全面捕获来自多个实体的关键信息。为了做到这一点,PMR 由四个模块组成:环境观察器(Environment Beholder) 模拟输入片段的整体场景,角色观察器(Actors Beholder)模拟输入片段中出现的主要角色,目标观察器(Objects Beholder)对片段的相关对象建模,以及整体观察器 (Actors-Objects-Environment Beholder)对所有类型的实体之间的关系建模。此外,角色和目标观察器配备了新颖的 自适应注意力机制(Adaptive Attention Mechanism,AAM),以分别消除出现在场景中的非必要角色和不相关的物体,并且只会被分别应用到主要角色和最相关的物体。

相关资料:
代码地址:https://github.com/UARK-AICV/...
论文链接:Contextual Explainable Video Representation: Human Perception-based Understanding


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI