作者 | Bin Yan
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

导读

本文简短介绍大连理工大学和微软亚洲研究院合作的最新工作:Learning Spatio-Temporal Transformer for Visual Tracking,代码已开源,先来看下STARK在各大数据集上的性能。

短时跟踪

TrackingNet AUC 82.0% (目前第一)!

GOT-10K AO 68.8% (只用GOT10K训练 目前第一)!

VOT2020 EAO 0.505 (目前第二)!

长时跟踪

LaSOT AUC 67.1% (目前第一)!

VOT2020-LT F-score 70.2% (目前第一)!

OxUvA MaxGM 78.2% (Leaderboard第二,有paper的工作中第一)!

图片

作者单位 :大连理工大学,微软亚洲研究院

论文:https://arxiv.org/pdf/2103.17...

代码:https://github.com/researchmm...

看点

本文提出一种名为STARK的全新跟踪框架,该框架具体如下特点:

(1)通过Transformer学习鲁棒的时空联合表示。STARK的输入包括:第一帧模板,当前帧搜索区域,以及一个随时间变化的动态模板。

其中第一帧模板和当前帧搜索区域提供了待跟踪目标的外观与位置信息(空间信息),动态模板则涵盖了目标在跟踪过程中的动态变化(时序信息)。

STARK将“时空”看作一个整体,将以上三张图像的骨干网络特征沿空间维度展开后拼接,得到一个同时包含空间与时序信息的特征序列作为Transformer编码器的输入,以学习一种强大的时空联合表示。

(2)将目标跟踪建模成一个直接的边界框预测问题。通过预测左上与右下角点热力图的方式,每帧直接得到一个最优的边界框,彻底摆脱了之前复杂且对超参敏感的后处理

(3)STARK在多个短时跟踪与长时跟踪数据集上取得了当前最先进的结果,并且在GPU端可以实时运行(30/40 FPS on Tesla V100)。

实验结果

本文在多个短时跟踪与长时跟踪数据集上评估了STARK算法的性能,结果表明STARK在短时和长时跟踪数据集上均取得了最先进的性能(第一或第二)

短时跟踪

  • GOT-10K

遵循GOT-10K官方的要求,在GOT-10K测试集上测试时,我们只用GOT10K的训练集训练

STARK取得了68.8%的AO,排名第一

图片

GOT-10K

  • TrackingNet

STARK在TrackingNet上取得了82.0%的AUC,排名第一

图片

TrackingNet

  • VOT2020

VOT2020采用mask作为真值,参赛者可以选择汇报box或者mask。当只汇报box时,STARK以0.308的EAO超越了之前的SOTA SuperDiMP(0.305);

当搭配上AlphaRefine方法(首先用STARK预测边界框,再用AlphaRefine预测mask),STARK超越了AlphaRef, OceanPlus等最先进的方法, EAO达到了0.505,排名第二 (仅次于VOT20的冠军RPT)

图片

VOT2020

长时跟踪

  • LaSOT

STARK在LaSOT上取得了67.1%的AUC, 排名第一

图片LaSOT

  • VOT2020-LT

STARK在VOT2020-LT上取得了70.2%的F-score,超越了当年的冠军LT\_DSE,排名第一

图片

VOT2020-LT

  • OxUvA

STARK在OxUvA上取得了78.2%的MaxGM,超越了之前最先进的方法LTMU和Siam R-CNN等,目前在OxUvA的排行榜上排名第二,在有论文的方法中排名第一

图片

OxUvA

完整的训练和测试代码,训练好的模型和训练过程中的log,以及原始跟踪结果发布到以下repo, 欢迎大家Watch, Star, Fork三连!!!

代码https://github.com/researchmm...

END


我爱计算机视觉
1 声望7 粉丝