faster rcnn是RCNN家族的第三个版本,它于2015年提出,基本上延续了fast rcnn的思路。不同的是faster rcnn采用单独的卷积神经网络(RPN)来进行区域候选,极大的提高了生成区域候选的速度,这使得网络可以端到端的训练。faster rcnn可以看做是fast rcnn + RPN。
本文主要介绍faster rcnn的总体思路和架构,试图对该网络有一个大概的了解。
如下图所示,整个网络共包含三个模块,骨架网络(VGG),区域候选网络(RPN),fast rcnn。图像首先通过骨架网络(这里使用的骨架网络是vgg16)进行特征提取得到特征图,然后区域候选网络(RPN)会使用特征图来生成区域候选,最后生成的区域候选会和特征图一起进入fast rcnn网络,最终分别通过回归层和分类层输出边界框的坐标偏移以及类别概率。
可以看到,fast rcnn网络和rpn共享卷积权重,这可以有效的减少计算量。
下图与上图稍微有些不同,但同样表示了faster rcnn的整体架构,也是faster rcnn代码的主体结构,同时展示了每个子网络的输出和输出大小。图中RPN包含了上图RPN中的3个卷积层,head包含上图中ROI Pooling及其之后的部分。
下一节,我会重点介绍RPN的具体结构以及代码实现
Reference:
Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks."_Advances in neural information processing systems_. 2015.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。