Faster RCNN介绍:
给定图片中精确定位物体位置,预测物体类别
尺度变化、视觉变化、姿态变化、场景不确定、多个类别
RCNN->SPPNet->Fast-RCNN->Faster-RCNN升级
它的检测方法流程与传统方法类似:
候选框选取可采用滑动窗口策略或选择性搜索策略。RCNN网络
RBG 2014年提出
深度特征

RBG首次将卷积神经网用在了深度学习目标检测算法中。利用卷积神经网代替了原先的颜色、纹理这样的低层次的视觉特征。因为RCNN并没有对整个传统目标检测的框架进行改进 ,因此RCNN依然存在传统目标检测存在的问题。例如:检测速度效率低下。RCNN介绍
步骤一:训练分类网络AlexNet
步骤二:模型左fine-tuning
+ 类别1000改为20
+ 去掉FC步骤三:特征提取
+ 提取候选框(选择性搜索)
+ 对弈每一个区域:修正区域为CNN的输入,利用网络对候选框提取到特征步骤四:训练SVM分类器:每个类别对应一个SVM
步骤五:回归器精修候选框位置:利用线性回归模型判定框的准确度
解释:
提取候选框(选择性搜索)step0:生成区域集R(区域分割)
step1:计算区域集R里每个相邻区域的相似度S={s1,s2…}
step2:找出相似度最高的两个区域,将其合并为新集,添加进R
step3:从S中移除所有与step2中有关的子集
step4:计算新集与所有子集的相似度
step5:跳至step2,直至S为空

RCNN缺点:
- 候选框选择算法耗时严重
- 重叠区域特征重复计算
- 分步骤进行,过程繁琐
SPPNet介绍:
- Spatial Pyramid Pooling
- 空间金字塔池化
- CNN不同尺度输入
- 仅对原图提取一次卷积特征

Image:这里的输入图像可以理解为候选区域。
Crop/warp:对候选区域进行抠图,然后将图片resize到固定的尺寸。
因为有了这两个操作,所以候选区域可能出现扭曲。因此将固定尺寸的图片输入到卷积神经网中,尽心特征提取,最终在FC层得到输出的特征向量。因为采用同一个卷积神经网,因此保证输入的尺寸必须一致。这里将候选区域的提取放在了图像输入的下一步,不同的候选区域会分别采用一次卷积来完成特征提取的过程,就意味着会有计算量的重复,也是RCNN网络存在的问题。所以做了优化(上图最下边),引入spp层(右上图)对于不同尺寸提取不同维度的特征,它会将每一个卷积层的输出固定的通过SPP层得到一个21维特征,这个21维是针对每个feature map而言的,也就是对每一个通道(channel),具体维数21 * c,就是通过SPP层得到固定的输出,然后再通过FC层计算。
那具体是如何根据这样一个区域来得到一个值呢,实际上可以采用pooling操作来完成。有各种pooling算子。
- Fast RNN介绍
- 结合SPPNet改进RCNN
- ROI Pooling:单层SPPNet
- 多任务网络同时解决分类和位置回归
- 共享卷积特征
- 为Faster RCNN的提出打下基础,提供了可能

- ROI Pooling:
- pooling层的一种
- 为了proposal抠出来的过程,然后resize到统一的大小
- 操作如下:
(1)根据输入的image,将Roi映射到feature mao对应的位置
(2)将映射后的区域划分为相同大小的sections(sections数量和输出的维度相同)
(3)对每个section进行max pooling操作
- Fast RNN网络缺点:
- 存在瓶颈:选择性搜索,找出所有的候选框十分耗时
- 那么能不能找出一个更加高效的方法来求出这些候选框呢
- Region Proposal Network(RPN)网络
- Faster RNN网络:
- Region Proposal Network(RPN)
- 端到端的检测

- Faster RNN网络结构
- 主干网络:13con+13relu+4pooling
- RPN:3 × 3 + 背景前景区分 + 初步定位
- ROI Pooing
- 分类 + 位置精确定位

- Fast RNN网络缺点:
- RPN网络
- Anchor
- 前景背景分类 + 框位置的回归
- 粗定位
- 粗分类

图解:
RPN网络中,通常会使用滑动窗口(通常是3 × 3),卷积后会的到一个固定长度的向量,接下来分别用两个FC层对类别和位置进行分类和回归,这里的Anchor是指对于每一个滑动窗口,它的中心点都会作为一个Anchor,再针对这个Anchor来分别同原始的图像找到不同尺寸的窗口,认为不同尺寸的窗口经过poling之后就能映射到这样一个3 × 3的区域上,也就是通过Anchor找到原始图像。
- RPN网络
- Anchor
- 三个面积尺寸(128,256,512)
- 在每个面积尺寸下,取三种不同长宽比(1:1,1:2,2:1)
proposal个数:9 ×w ×h
- Faster RCNN介绍
- Ross B.Girshick大神在2016年提出
- 目标检测任务
- 给定图片中精确定位物体位置,预测物体的类别
- 尺度变化、视觉变化、姿态变化、场景不确定、多个类别
- RCNN ->SppNET -> Fast-RCNN->Faster-RCNN升级
- Cascade RCNN
- 只有proposal自身的阈值和训练器训练用的阈值较为接近的时候,训练器的性能才最好




版权声明:本文为qq_43211132原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。