Mask R-CNN:目标检测与实例分割的强大模型

Faster R-CNN由两个阶段组成。第一阶段称为区域提议网络(Region Proposal Network,RPN),用于提出候选目标边界框。第二阶段本质上是Fast R-CNN,它通过感兴趣区域池化(RoIPool)从每个候选框中提取特征,并进行分类和边界框回归。

Mask R-CNN采用了相同的两阶段流程,第一阶段与Faster R-CNN相同(即RPN) 。在第二阶段,Mask R-CNN除了预测类别和边界框偏移量之外,还会为每个感兴趣区域(RoI)输出一个二进制掩码。

正式地,在训练过程中,我们在每个采样的RoI上定义一个多任务损失,公式为:
$$L = L_{cls} + L_{box} + L_{mask}$$

掩码分支为每个RoI输出一个 $Km^2$ 维的结果,它编码了 $K$ 个分辨率为 $m×m$ 的二进制掩码,每个类别对应一个掩码。对此,我们对每个像素应用sigmoid函数,并将 $L_{mask}$ 定义为平均二进制交叉熵损失。对于与真实类别 $k$ 相关联的RoI,$L_{mask}$ 仅在第 $k$ 个掩码上定义(其他掩码输出对损失没有贡献)。

论文Mask R-CNN 1703.06870

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝