【目标检测】Bounding Box Regression

Bounding Box是目标检测中一个重要概念。常见格式是边界框左上角坐标、右下角坐标,即[xmin,ymin,xmax,ymax];或者边界框中心坐标,宽高,即[x_center,y_center,w,h]。

Bounding Box Regression的作用

以下图为例,红色框表示Ground Truth, 蓝色框为网络输出的候选区域框Region Proposal。蓝色框被分类器识别为person,但因框定位不准(IoU<阈值), 则也是检测失败。 Bounding Box Regression的目的就是对蓝色框微调,使得经过微调后的窗口跟真实边界框更接近[1]。

 

如何进行Bounding Box Regression

以四维向量(x,y,w,h) 表示的Bounding Box为例, 即窗口的中心点坐标[x,y]和宽高[w,h]。P=[P_x,P_y,P_w,P_h]表示原始的Region Proposal,  G=[G_x,G_y,G_w,G_h]表示Ground Truth,Bounding Box Regression的目标是寻找一种函数关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口G更接近的回归窗口\hat{G} = [\hat{G}_x,\hat{G}_y,\hat{G}_w,\hat{G}_h]。[2]

P通过线性变换得到\hat{G},对x,y做平移,对w,h做缩放。

边框回归就是学习这四个变换d_x(P),d_y(P),d_w(P),d_h(P)。RCNN中,对P经过pool5的特征层学习一个线性变换,参数为w_*。最后网络输出d_*(P)=w^T_* \phi_5(P)。该回归任务的target t_*如下:

 

 

 

参考资料:

[1]边框回归(Bounding Box Regression)详解

[2]Rich feature hierarchies for accurate oject detection and semantic segmentation


版权声明:本文为u011285477原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。