1

一.问题的引出

在阅读《Rich feature hierarchies for accurate object detection and semantic segmentation》的paper中分析了使用RCNN模型的错误率主要的原因来源于poor localization为了解决这个问题作者使用了Bounding-Box regression的做法来对模型进行优化通过对生成的边框进行调整。

二.详细理解

1.IOU的意义

clipboard.png

如图红色框和绿色框所示,红色框是我们生成的Region Proposal(具体怎么生成的不说明了)记为R,而绿色是我们的实际要达到的检测框(Ground Truth)记为G。那么IOU就是(R∩G)/(R∪G) 。定义这个的目的就是为了在训练时为已标定的Bounding-Box寻找一个能够扩张为该Bounding-Box的Region Proposal,当IOU小于某个值得时候就必须被丢弃,这样的具体原因是因为能够进行Bounding-Box regression的两个框的是差异比较小的,这样才能进行线性模拟(下面会讲述的)。

2.Bounding-Boxd的意思

clipboard.png

如上图中P是训练时生成的边框(要满足IOU的条件)GM为中间的经过回归的边框,G使我们训练样本中标定的边框。我们该如何从P生成到GM呢?首先我们需要知道该如何确定一个边框在一幅图的位置对于窗口一般使用四维向量(x,y,w,h)来表示, 分别表示窗口的中心点坐标和宽高。我们要将P变换到GM只需要进行平移后缩放就可以了,这是几何上的直观想法(本文中GM与P变换后的窗体指代一个对象)

clipboard.png
边框回归学习就是dx(P),dy(P),dw(P),dh(P)这四个变换。下一步就是设计算法那得到这四个映射。
那么问题就来了,我们从图形中获得的数据不可能真的是坐标,不然就成了在某个位置固定了对应得一个变换方法而不管该位置的图形到底是什么东西。我们获得的对象是该Region Proposal的特征向量,这也是十分合理的,想象一下人在确定一幅图中某个固定大小区域的对象时,如该区域只有对象的一部分图片,我们也是进行扩大视野最后就能看到整个对象了呀,最后的视野也就是Ground Truth。而人接受的输入时像素点,那么对应的在回归中就接受特征向量。
在人接受到图片是就知道该如何移动自己的目光来寻找整个对象,相当于人知道当前看到的部分在实际物体对象中所处的位置后,就知道该如何变换自己的目光和视野范围,如看到左半脸就知道将目光平移到右边再扩大自己的视野。类似的在接收到特定Region Proposal的特征向量,算法应该知道朝什么方向移动和如何进行尺度缩放(这些都是从训练中习得的)。这使用数学语言就是一种由特征向量向dx(P),dy(P),dw(P),dh(P)的映射关系!
如何能得到该关系呢,还是要进行训练,下图是我们追求的尺度变换的方法,也就是监督学习中的类似于label的量
clipboard.png

那么我们实际做的尺度变换可以定义为
d∗(P)=wT∗Φ5(P), Φ5(P)是输入 Proposal 的特征向量,w∗是要学习的参数(*表示 x,y,w,h, 也就是每一个变换对应一个目标函数,也就是刚刚说的映射关系) , d∗(P)是得到的预测值。 我们要让预测值跟真实值t∗=(tx,ty,tw,th)差距最小, 得到损失函数为:

clipboard.png

优化函数为

clipboard.png

对于公式为什么才采用上述的格式参见参考的博主文章
http://m.blog.csdn.net/zijin0...
水平有限,敬请谅解


提康德罗加F
14 声望3 粉丝

fool


引用和评论

0 条评论