背景
- 将“深度学习”和传统的“计算机视觉”的知识相结合,没有过多的使用深度学习
- 2014年将PASCALVOC数据集检测率从35%提升到53%
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uvig15aQ-1650618571353)(../../../%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B/two-stage/Faster-RCNN/Faster-RCNN.assets/1650615463343.png)]](https://img-blog.csdnimg.cn/6e5639e582164a27b57d4bfb6e18a9d6.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAU3RlcGhlbi1DaGVu,size_20,color_FFFFFF,t_70,g_se,x_16)

具体步骤

总体的步骤图:

1.候选区域生成:ROI(Regions of Interst)
- Selective Search算法
- 将图像分割承小区域,合并包含同一物体可能性较高的区域,提取约2000个候选区域
- 归一化处理,得到固定大小的图像
利用 Selective Search 算法通过图像分割的方法得到一些原始区域,然后利用一些合并策略将这些区域合并,得到一些层次化的区域结构,而这些结构就包含着可能需要的物体。这里的 SS 算法可以详见 此处,算法原始论文Selective Search for Object Recognition。(初始区域的获取是引用另一篇论文的:Efficient Graph-Based Image Segmentation)

2.CNN提取
将固定大小的图像,利用AlexNet CNN网络得到固定维度的特征输出

3.SVM分类器
- 线性二分类器对输出特征进行分类
- 得到是否属于此类的结果,采用难样本挖掘来平衡正负样本的不平衡


对2000x20的每一列近NMS处理

4.位置精修
通过回归器对特征边界回归=Bounding Box regression从而得到更为精准的目标区域
存在的问题
- 候选区域需要提前提取并保存,占用空间较大
- 涉及分类中的全连接网络,所以尺寸是固定的,精度会低
- 需要多步训练,步骤繁琐且训练速度慢
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eELStFIv-1650618571358)(../../../../../../windows/system32)]](https://img-blog.csdnimg.cn/1477cf60802044f78a47515ca071bdf9.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAU3RlcGhlbi1DaGVu,size_20,color_FFFFFF,t_70,g_se,x_16)
版权声明:本文为ADAS_CHEN原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。