【pytorch目标检测】开山之作:R-CNN算法解读

背景

  • 将“深度学习”和传统的“计算机视觉”的知识相结合,没有过多的使用深度学习
  • 2014年将PASCALVOC数据集检测率从35%提升到53%

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uvig15aQ-1650618571353)(../../../%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B/two-stage/Faster-RCNN/Faster-RCNN.assets/1650615463343.png)]
在这里插入图片描述

具体步骤


总体的步骤图

在这里插入图片描述

1.候选区域生成:ROI(Regions of Interst)

  1. Selective Search算法
  2. 将图像分割承小区域,合并包含同一物体可能性较高的区域,提取约2000个候选区域
  3. 归一化处理,得到固定大小的图像

利用 Selective Search 算法通过图像分割的方法得到一些原始区域,然后利用一些合并策略将这些区域合并,得到一些层次化的区域结构,而这些结构就包含着可能需要的物体。这里的 SS 算法可以详见 此处,算法原始论文Selective Search for Object Recognition。(初始区域的获取是引用另一篇论文的:Efficient Graph-Based Image Segmentation)
在这里插入图片描述

在这里插入图片描述

2.CNN提取

将固定大小的图像,利用AlexNet CNN网络得到固定维度的特征输出

3.SVM分类器

  • 线性二分类器对输出特征进行分类
  • 得到是否属于此类的结果,采用难样本挖掘来平衡正负样本的不平衡

在这里插入图片描述

在这里插入图片描述

对2000x20的每一列近NMS处理

在这里插入图片描述

4.位置精修

通过回归器对特征边界回归=Bounding Box regression从而得到更为精准的目标区域
在这里插入图片描述

存在的问题

  • 候选区域需要提前提取并保存,占用空间较大
  • 涉及分类中的全连接网络,所以尺寸是固定的,精度会低
  • 需要多步训练,步骤繁琐且训练速度慢

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eELStFIv-1650618571358)(../../../../../../windows/system32)]


版权声明:本文为ADAS_CHEN原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。