头图

出品人:Towhee 技术团队 张晨、顾梦佳

视频对象分割 (Video Object Segmentation,VOS) 是视频理解的基础。 基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。 然而,现有的工作很难分割彼此靠近的相似物体。为此,BATMAN 提出了一种用于半监督 VOS 的新型双边注意力Transformer。大量实验验证了 BATMAN 架构的有效性,它在所有四个流行的 VOS 基准测试中均优于所有现有的最先进技术:Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2) %/82.2%),以及 DAVIS 2016 (92.5%)。
图片

Overview of BATMAN architectureBATMAN

通过一个新颖的光流校准模块捕获视频中的对象运动,该模块将分割掩码与光流估计融合在一起,以提高对象内光流的平滑度并减少对象边界处的噪声。双边空间编码器用于将查询特征和校准后的光流编码为双边空间编码,供双边注意力使用。双边注意力 Transformer 会考虑运动和外观来计算相邻双边空间中查询帧和参考帧之间的对应关系。

相关资料:
论文链接:BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI