BATMAN：将双边注意力用于视频对象分割

出品人：Towhee 技术团队张晨、顾梦佳

视频对象分割 (Video Object Segmentation，VOS) 是视频理解的基础。基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。然而，现有的工作很难分割彼此靠近的相似物体。为此，BATMAN 提出了一种用于半监督 VOS 的新型双边注意力Transformer。大量实验验证了 BATMAN 架构的有效性，它在所有四个流行的 VOS 基准测试中均优于所有现有的最先进技术：Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2) %/82.2%)，以及 DAVIS 2016 (92.5%)。

Overview of BATMAN architectureBATMAN

通过一个新颖的光流校准模块捕获视频中的对象运动，该模块将分割掩码与光流估计融合在一起，以提高对象内光流的平滑度并减少对象边界处的噪声。双边空间编码器用于将查询特征和校准后的光流编码为双边空间编码，供双边注意力使用。双边注意力 Transformer 会考虑运动和外观来计算相邻双边空间中查询帧和参考帧之间的对应关系。

BATMAN：将双边注意力用于视频对象分割

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

微帧WZVQA：极致还原人眼感知，精准评估视频画质

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读