人工智能 - RelationNet：学习目标间关系来增强特征以及去除NMS | CVPR 2018 - 晓飞的算法工程笔记

论文基于NLP的注意力机制提出了目标关系模块，通过与其它目标的比对增强当前目标的特征，而且还可以代替NMS进行端到端的重复结果去除，思想十分新颖，效果也不错

来源：晓飞的算法工程笔记公众号

论文: Relation Networks for Object Detection

论文地址：https://arxiv.org/abs/1711.11575
论文代码：https://github.com/msracver/Relation-Networks-for-Object-Detection

Introduction

当前大多数目标检测算法仍专注于单独识别目标，没有尝试在训练时挖掘目标之间的关系，受限于当前简单的网络结构，无法对无规律的目标关系进行建模。参考自然语言处理中的注意力机制，论文提出了用于目标检测的自适应注意力机制 -- 目标关系模块(object relation module)，学习目标间的关系来增强特征以及去除重复结果。
检测目标有2D空间分布和不同的长宽比，比文本的场景要复杂些，所以论文拓展了NLP的注意力权重，分为两个权重：

基于目标特征产生的权重，跟NLP权重类似。
基于目标相对几何位置产生的权重，相对几何位置保证平移不变性。

目标关系模块接收可变输入并行计算，是可微的in-place操作，可作为基础构建block嵌入到任意目标检测算法中，嵌入方式如图1所示，用于目标识别部分以及重复目标去除：

目标识别部分(instance recognition)：利用目标关系模块，联合所有的检测目标来进行特征增强，再进行后续的识别。
重复目标去除(du-plicate remova)：在识别完成后，常规的做法使用NMS进行重复目标的去除，而论文使用轻量级网关系网络进行该做法的替换。

Object Relation Module

常规的注意力机制为ScaledDot-Product Attention，计算为：

给定查询目标$q$，计算与其它目标$K$的相似度，然后softmax归一化为权重，最后乘以各向量的值$V$得到加权后的特征，这3个值一般都是对目标特征进行embedding得到的。
对于目标检测中的相似性计算，每个目标包含几何特征$f_G$和外观特征$f_A$，给定$N$个目标$\{(f^n_A, f^n_G)\}^N_{n=1}$，可计算每个目标相对于其它目标的关系特征(relation feature)$f_R(n)$：

关系特征实际为所有目标的外观特征的加权和，$W_V$为线性变化，相当于将外观特征embedding为公式1的值$V$。权值$w^{mn}$表明其它目标相对于当前目标的重要性，计算方法为：

公式3实际上等同于公式1中的softmax，唯一不同的是除了外观权值$w^{mn}_A$，还额外使用几何权值$w^{mn}_G$进行加权。
外观权值$w^{mn}_A$的计算跟公式1的softmax括号内的计算一样，具体为：

$W_K$和$W_Q$同样为线性变化，分别将对比目标和当前目标的外观特征embedding成公式1的$K$和$Q$，embedding后的特征维度为$d_k$。
几何权值$w^{mn}_G$的计算为：

几何特征一般就是简单的四维bbox，所以公式5在计算几何权值包含两个步骤：

将当前目标和对比目标的几何特征通过$\varepsilon_G$embedding成高维特征，为了保证平移和尺寸不变性，几何特征转为相对值$(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m-y_n|}{h_m}), log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}) )$，embedding方法跟Attention Is All You Need里的位置编码一样，使用正弦函数和余弦函数。
使用$W_G$将高维几何特征转换为标量权值，小于0时设为0。

论文在几何特征的使用上也尝试了其它方法：1) none，直接将$w^{mn}_G$设为1.0计算权值，即不使用。 2) unary，将高维几何特征直接与外观特征融合，然后跟none一样计算权值。实验部分的表1有相关的结果对比，论文选择的公式5加权方法比较有效。

在实现时，类似于multi-head attention，一个目标关系模块(object relation module)包含$N_r$个关系特征，每个特征的维度为输入特征$f^m_A$的$\frac{1}{N_r}$，图2可能会有一点问题，几何特征写了两个，但是外观特征只写了一个，大家根据公式理解就好，最后通过相加对输入目标的外观特征进行增强：