YOLO系列知识点整理

之前系列博客中，各类深度学习的框架，一些新东西的接触都是从官网去接触的，好的东西必然有详尽的资料去阐述，很多都是外文网站，老外讲一些东西不是那么抽象，逻辑也很清楚，能理解的更为透彻，也可以去看看一些帖子，看看和自己的实现是不是差不多。对于各类算法，主要还是要去读读原作者的paper，理解不清楚的看看一些帖子，效果会更好。

深度学习在目标检测领域有很多的算法了，博主会有系列博客来记录，下面浅谈下博主的一个理解基调。

卷积神经网络，我们大概知道就是给输入（比如图像），给输出（打好的标签），然后拿预测出来的结果和输出进行比较，通过损失函数去更新输入到输出的权重值。对于classification来讲，输出就是一维向量，各分量表示该类别出现的概率；对于segmentation来讲，输出是一张图像，图像上各像素表示此存在目标的可能性；对于detection来讲，输出就很灵活，一般需要满足规则的解析，比如是一个7x7x85大小的数组，那么这个数组中的一个元素，比如(2,2,:)就表示了特征图上（3，3）像素处存在一个目标的信息，此时可以拿到该店表示的1x85维向量，第0~3分量表示的是此处存在目标的框的位置，第4个分量表示置信度，表示此存在目标的可能性，剩下的5~85表示，若第四个分量是表示存在目标的，那么此为目标属于某个类别的可能性。

所以可以看到目标检测算法虽然众多，但大家都是在干一件事，就是设定输入和输出之间的这么一个关系，然后训练的时候给定准备好的输入（这里指的图像），输出（按照规则得到的ground truth)；还有一个说明的是如果如果网络中有全连接层，那么图像大小不一致时就会导致全连接层的输入神经元个数不一致，往往需要一些技巧，比如输入的时候就调整到相同分辨率，或者在全连接层前设置一个SPP，这样不管图像分辨率如何，经过SPP后都能获得固定大小的向量；如果是全卷积层，就能避免这个问题，因为要训练的参数只和滤波器相关，而滤波器并不会随图像大小而变化，这样比如128*128*3的图像卷积到最后为，输出为8*8*85大小，256*256*3的图像卷积到最后，输出为16*16*85大小，虽然输出大小不一致，但你能知道它们对应的输出ground truth是什么，这两者大小都能共同去训练处网络中的参数。

下面就开始回归主题吧。

1.YOLO（2016年）

paper如下

https://arxiv.org/pdf/1506.02640.pdfhttps://arxiv.org/pdf/1506.02640.pdf要点：

将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。则SxS个网格，每个网格要预测B个bounding box还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor，网络主干是GooleNet

不足：

1.损失函数中localization error和classification error同等重要（解决办法可以是：对没有object的box的confidence loss，赋予小的loss weight; 只有当某个网格中有object的时候才对classification error进行更新）

2.输出为全连接层，只支持与训练图像相同的输入分辨率

3.YOLO对相互靠的很近的物体（挨在一起且中点都落在同一个格子上的情况），还有对很小的物体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类。虽然每个格子可以预测B个bounding box，但是最终只选择只选择IOU最高的bounding box作为物体检测输出，即每个格子最多只预测出一个物体。当物体占画面比例较小，如图像中包含畜群或鸟群时，每个格子包含多个物体，但却只能检测出其中一个。这是YOLO方法的一个缺陷。

4.测试图像中，当同一类物体出现的不常见的长宽比和其他情况时泛化能力偏弱。

5.对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样(为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width)。定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。

6.YOLO loss函数中，大物体IOU误差和小物体IOU误差对网络训练中loss贡献值接近（虽然采用求平方根方式，但没有根本解决问题）。因此，对于小物体，小的IOU误差也会对网络优化过程造成很大的影响，从而降低了物体检测的定位准确性。

2.YOLOv2（2016年）

https://arxiv.org/pdf/1612.08242.pdfhttps://arxiv.org/pdf/1612.08242.pdf

相较于YOLO主要有两个大方面的改进：

第一，作者使用了一系列的方法对原来的YOLO多目标检测框架进行了改进，在保持原有速度的优势之下，精度上得以提升。

第二，作者提出了一种目标分类与检测的联合训练方法，通过这种方法，YOLO9000可以同时在COCO和ImageNet数据集中进行训练，训练后的模型可以实现多达9000种物体的实时检测。

这一系列方法可见作者论文里的表格

（1）Batch Normalization（批归一化），YOLO v2中在每个卷积层后加Batch Normalization(BN)层，去掉了dropout层。 Batch Normalization层可以起到一定的正则化效果，能提升模型收敛速度，防止模型过拟合。YOLO v2通过使用BN层使得mAP提高了2%。

（2）High Resolution Classifier（高分辨率预训练分类网络）

目前的大部分检测模型都会使用主流分类网络（如vgg、resnet）在ImageNet上的预训练模型作为特征提取器，而这些分类网络大部分都是以小于 256 × 256 的图片作为输入进行训练的，低分辨率会影响模型检测能力。YOLO v2先在ImageNet上以 448 × 448 的分辨率对网络进行10个epoch的微调，让网络适应高分辨率的输入。通过使用高分辨率的输入，YOLO v2的mAP提升了约4%。

3）Convolutional With Anchor Boxes（带Anchor Box的卷积）

YOLO v1利用全连接层直接对边界框进行预测，导致丢失较多空间信息，定位不准。 YOLO v2去掉了 YOLO v1中的全连接层，使用Anchor Boxes预测边界框，同时为了得到更高分辨率的特征图， YOLO v2还去掉了一个池化层。由于图片中的物体都倾向于出现在图片的中心位置，若特征图恰好有一个中心位置，利用这个中心位置预测中心点落入该位置的物体，对这些物体的检测会更容易。所以总希望得到的特征图的宽高都为奇数。 YOLO v2通过缩减网络，使用 416 × 416 的输入，模型下采样的总步长为 32，最后得到 13 × 13 的特征图，然后对 13 × 13 的特征图的每个cell预测 5 个anchor boxes，对每个anchor box预测边界框的位置信息、置信度和一套分类概率值。使用anchorboxes之后， YOLO v2可以预测 13 × 13 × 5 = 845 个边界框，模型的召回率由原来的81%提升到88%，mAP由原来的69.5%降低到69.2%.召回率提升了7%，准确率下降了0.3%。

（4）Dimension Clusters（Anchor Box的宽高由聚类产生）

在Faster R-CNN和SSD中，先验框都是手动设定的，带有一定的主观性。 YOLO v2采用k-means聚类算法对训练集中的边界框做了聚类分析，选用boxes之间的IOU值作为聚类指标。

（5）New Network：YOLO v2采用Darknet-19，网络包含19个卷积层和5个max pooling层，而在YOLOv1中采用的GooleNet，包含24个卷积层和2个全连接层，因此Darknet-19整体上卷积卷积操作比YOLOv1中用的GoogleNet要少，这是计算量减少的关键。最后用average pooling层代替全连接层进行预测。

（6）Direct location prediction

Faster R-CNN使用anchor boxes预测边界框相对先验框的偏移量，由于没有对偏移量进行约束，每个位置预测的边界框可以落在图片任何位置，会导致模型不稳定，加长训练时间。 YOLO v2沿用 YOLO v1的方法，根据所在网格单元的位置来预测坐标。

（7）Fine-Grained Features（细粒度特征）

YOLO v2借鉴SSD使用多尺度的特征图做检测，提出pass through层将高分辨率的特征图与低分辨率的特征图联系在一起，从而实现多尺度检测。 YOLO v2提取Darknet-19最后一个max pool层的输入，得到 26 × 26 × 512的特征图。

（8）Multi Scale Training

YOLOv2中只有卷积层和池化层，因此不需要固定的输入图片的大小。为了让模型更有鲁棒性，作者引入了多尺度训练。就是在训练过程中，每迭代一定的次数，改变模型的输入图片大小。注意：这一步是在检测数据集上fine-tuning时候采用的，不要跟前面在Imagenet数据集上的两步预训练分类模型混淆。网络输入是416×416，经过5次max pooling之后会输出13×13的feature map，也就是下采样32倍，因此作者采用32的倍数作为输入的size，具体采用320、352、384、416、448、480、512、544、576、608共10种size。输入图片大小为320×320时，特征图大小为10×10，输入图片大小为608×608时，特征图大小为19×19。每次改变输入图片大小还需要对最后检测层进行处理，然后开始训练。

论文提到的YOLO900，就是使用联合训练算法训练出来的，他拥有9000类的分类信息，这些分类信息学习自ImageNet分类数据集，而物体位置检测则学习自COCO检测数据集。

3.YOLOv3（2018年）

https://pjreddie.com/media/files/papers/YOLOv3.pdfhttps://pjreddie.com/media/files/papers/YOLOv3.pdf

网络结构图

上图三个蓝色方框内表示Yolov3的三个基本组件：

CBL：Yolov3网络结构中的最小组件，由Conv+Bn+Leaky_relu激活函数三者组成。Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深。ResX：由一个CBL和X个残差组件构成，是Yolov3中的大组件。每个Res模块前面的CBL都起到下采样的作用，因此经过5次Res模块后，得到的特征图是608->304->152->76->38->19大小。

上面提到的两个基本操作：

Concat：张量拼接，会扩充两个张量的维度，例如26*26*256和26*26*512两个张量拼接，结果是26*26*768。Concat和cfg文件中的route功能一样。add：张量相加，张量直接相加，不会扩充维度，例如104*104*128和104*104*128相加，结果还是104*104*128。add和cfg文件中的shortcut功能一样

博主有用此版本训练预测过自己的数据集，见博客

改进之处：

Yolo_v3使用了darknet-53的前面的52层（没有全连接层），yolo_v3这个网络是一个全卷积网络，大量使用残差的跳层连接，并且为了降低池化带来的梯度负面效果，作者直接摒弃了PoolLing，用conv的stride来实现降采样。在这个网络结构中，使用的是步长为2的卷积来进行降采样。

为了加强算法对小目标检测的精确度，YOLO v3中采用类似FPN的upsample和融合做法（最后融合了3个scale，其他两个scale的大小分别是26×26和52×52），在多个scale的feature map上做检测。

作者在3条预测支路采用的也是全卷积的结构，其中最后一个卷积层的卷积核个数是255，是针对COCO数据集的80类：3*(80+4+1)=255，3表示一个grid cell包含3个bounding box，4表示框的4个坐标信息，1表示objectness score。

分类器不在使用Softmax，分类损失采用binary cross-entropy loss（二分类交叉损失熵）。分类损失采用binary cross-entropy loss。

4.YOLOv4（2020年）

读此篇有一种读文献综述的感觉，写论文的朋友一定不要错过此篇

https://arxiv.org/pdf/2004.10934.pdfhttps://arxiv.org/pdf/2004.10934.pdf

（论文中截图）

论文里作者也拆分一个目标检测网络应该拆分为如下几个部分，非常的具有归纳性

论文里引用了大量文献，集中了近几年的一些好的技巧在里面，文章里提到了2个术语：Bag of freebies（指的是那些不增加模型复杂度，也不增加推理的计算量的训练方法技巧，来提高模型的准确度），Bag of specials（指的是那些增加少许模型复杂度或计算量的训练技巧，但可以显著提高模型的准确度），可以看到老外的思路和我们也差不多，基本在前人基础上就是从这两方面去优化。

改进点：

（1）构建了一个简单且高效的目标检测模型，该算法降低了训练门槛，这使得普通人员都可以使用 1080Ti 或 2080 Ti GPU 来训练一个超快，准确的（super fast and accurate）目标检测器。

（2）验证了最先进的 Bag-of-Freebies 和 Bag-of-Specials 方法在训练期间的影响

BoF指的是

1）数据增强：图像几何变换（随机缩放，裁剪，旋转），Cutmix，Mosaic等

2）网络正则化：Dropout,Dropblock等

3）损失函数的设计：边界框回归的损失函数的改进 CIOU

BoS指的是

1）增大模型感受野：SPP、ASPP等

2）引入注意力机制：SE、SAM

3）特征集成：PAN，BiFPN

4）激活函数改进：Swish、Mish

5）后处理方法改进：soft NMS、DIoU NMS

（3）修改了最先进的方法，并且使其更为有效，适合单GPU训练。包括 CBN，PAN， SAM等，从而使得 YOLO-v4 能够在一块 GPU 上就可以训练起来。

主要创新点：

图片来自深入浅出Yolo系列之Yolov3&Yolov4&Yolov5&Yolox核心基础知识完整讲解 - 知乎

输入端的创新点：训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练

不像之前只是对单张图片进行操作，会对多幅图像进行处理融合合并为一张图像，让其上面有多个目标。

BackBone主干网络：各种方法技巧结合起来，包括：CSPDarknet53、Mish激活函数、Dropblock

Neck：目标检测网络在BackBone和最后的输出层之间往往会插入一些层，比如Yolov4中的SPP模块、FPN+PAN结构

Prediction：输出层的锚框机制和Yolov3相同，主要改进的是训练时的回归框位置损失函数CIOU_Loss，以及预测框筛选的nms变为DIOU_nms

5.YOLOv5（2020年）

这个版本不是前面系列版本的团队做的，是前面提到的实现yolov3代码的一个团队Ultralytics做的，网络架构如下，图片来自深入浅出Yolo系列之Yolov5核心基础知识完整讲解 - 知乎

这个版本开启了一个网络结构的多种分支时代，可以有选择性的去配置网络，分别有Yolov5s, Yolov5m, Yolov5l, Yolov5x，他们公布的结果表明，YOLOv5 的表现要优于谷歌开源的目标检测框架 EfficientDet。

相比较Yolov4，其改进了如下四个方面：

（1）输入端：Mosaic数据增强、自适应锚框计算、自适应图片缩放（在Yolov3、Yolov4中，训练不同的数据集时，计算初始锚框的值是通过单独的程序运行的）
（2）Backbone：Focus结构，Focuse中的切片示意如下图。Yolov5与Yolov4不同点在于，Yolov4中只有主干网络使用了CSP结构。而Yolov5中设计了两种CSP结构，以Yolov5s网络为例，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中。

（3）Neck：FPN+PAN结构
（4）Prediction：GIOU_Loss

（5）Yolov5中采用其中的CIOU_Loss做Bounding box的损失函数。

四种网络结构的差异：

(1) 每个CSP结构的深度都是不同的。以yolov5s为例，第一个CSP1中，使用了1个残差组件，因此是CSP1_1。而在Yolov5m中，则增加了网络的深度，在第一个CSP1中，使用了2个残差组件，因此是CSP1_2。

(2)网络的特征图的厚度不一样，以Yolov5s结构为例，第一个Focus结构中，最后卷积操作时，卷积核的数量是32个，因此经过Focus结构，特征图的大小变成304*304*32。而yolov5m的Focus结构中的卷积操作使用了48个卷积核，因此Focus结构后的特征图变成304*304*48

6.YOLOx（2021年）

论文地址

https://arxiv.org/pdf/2107.08430.pdfhttps://arxiv.org/pdf/2107.08430.pdf论文的实验比较结果

论文里上来就说了，其基础网络架构还是选用的yolov3版本，作者觉得有点过度优化了

YoloX支持可选配，如下：

（1）标准的网络结构：YOLOX-S，YOLOX-m, YOLOX-l, YOLOX-x, Yolo-Darknet53

（2）轻量级网络结构：YoloX-Nano, YoloX-Tiny

需要说明的是，上面提到的yolov3这个基准版本和当时论文里也是不一样的，在此篇中添加了SPP结构，所以换句话讲，是拿加了SPP的yolov3(Darknet53作为前置网络架构）来作为baseline。 在这个baseline上面做了一些技巧，主要是：Decoupled Head、SimOTA等，构造了新的一个模型，这边就叫YOLOX-Darknet53（需要说明的是ultralytics也实现了一版yolo-spp)，其网络架构如下，可用来和上面的系列版本进行对比。

对比yolov3下来，输入端、backbone主干网络、neck没有什么太大变化，抛弃了v4和v5里的pan，只用了FPN就够了，也没有用CSP这种结构。在prediction阶段改进较大，如下几个方面：

Decoupled Head、Anchor-free、Multi positives。

在网络的输入端，Yolox主要采用了Mosaic、Mixup两种数据增强方法。在训练的最后15个epoch，这两个数据增强会被关闭掉。而在此之前，Mosaic和Mixup数据增强，都是打开的，这个细节需要注意。

Decoupled Head，目前在很多一阶段网络中都有类似应用，比如RetinaNet、FCOS等。也比较好懂，反正就是换了一种输入和输出的连接方式，最后合并为了一个输出，下面这种是end-to-end方式

这里就要引入Anchor的内容，目前行业内，主要有Anchor Based和Anchor Free两种方式。在Yolov3、Yolov4、Yolov5中，通常都是采用Anchor Based的方式，来提取目标框，进而和标注的groundtruth进行比对，判断两者的差距。 Anchor Based方式，比如输入图像，经过Backbone、Neck层，最终将特征信息，传送到输出的Feature Map中。这时，就要设置一些Anchor规则，将预测框和标注框进行关联。从而在训练中，计算两者的差距，即损失函数，再更新网络参数。Anchor Free虽然没有三种锚框的设定，但因为采样大小不一样，变相的加入了将锚框信息加入了进来。

作者又对yolo5s、yolo5m、yolo5l、yolo5x进行了改进，把上面的优化方法和yolov5结合起来。就有了YOLOX-S，YOLOX-m, YOLOX-l, YOLOX-x

博主这边只是简单的记录一下自己收集的信息，大概的一个算法过程也是理解的，后面有精力能够去关联源码和paper一起看,这样理解会更深刻。时间和精力问题，暂时只能到此了。

参考的博客：

百度安全验证https://baijiahao.baidu.com/s?id=1717730753560317539 百度安全验证https://baijiahao.baidu.com/s?id=1717730887250972083&wfr=spider&for=pc 百度安全验证https://baijiahao.baidu.com/s?id=1717823971505216877&wfr=spider&for=pc YOLO v2详细解读_迪菲赫尔曼的博客-CSDN博客_yolov2

深入浅出Yolo系列之Yolov3&Yolov4&Yolov5&Yolox核心基础知识完整讲解 - 知乎

深入浅出Yolo系列之Yolov5核心基础知识完整讲解 - 知乎

YOLOV5简单介绍以及YOLO系列算法比较 - 知乎

深入浅出Yolo系列之Yolox核心基础完整讲解 - 知乎

原文链接：https://blog.csdn.net/jiugeshao/article/details/124362788