YOLO系列：YOLO V3模型讲解

论文标题：YOLO V3：An Incremental Improvement （CVPR 2018）
效果(COCO 数据集)：

模型结构：(DarkNet-53有53个卷积层)

使用卷积层代替了最大池化下采样层，DarkNet-53卷积核的个数比ResNet也少很多。
效果对比：

DarkNet 53检测效果和ResNet152基本持平，但检测速度慢了两倍。

使用K-means 聚类算法得到了先验框的尺度，文章选择了9个聚类，3个尺度，也就是在每个预测特征图上会预测三种尺度的先验框。每个预测特征图上会有 $\times N \times [3 * (4+1+80)]$ (N表示特征图大小，80表示COCO数据集中的80个类别的分数信息，4表示坐标( $t_x$ , $t_y$ , $t_w$ , $t_h$ ), 1表示置信度。)

特征图层	特征图大小	预设边界框尺寸	预设边界框数量
特征图层1	13 $\times$ 13	(116 $\times$ 90)；(156 $\times$ 198)；(373 $\times$ 326)	13 $\times$ 13 $\times$ 3
特征图层2	26 $\times$ 26	(30 $\times$ 61)；(62 $\times$ 45)；(59 $\times$ 119)	26 $\times$ 26 $\times$ 3
特征图层3	52 $\times$ 52	(10 $\times$ 13)；(16 $\times$ 30)；(33 $\times$ 23)	52 $\times$ 52 $\times$ 3

在这里插入图片描述

Bounding box计算：
正负样本匹配：每个groundtruth 都分配一个bounding box prior，分配原则-将与gt重合最大的作为正样本，如果不是最大但是大于某个值，则丢弃这些预测框（文章设置阈值为0.5）,剩下的样本为负样本。如果一个bounding box prior不是正样本那么就不再计算它的定位损失和类别损失，仅计算confidence score。
损失计算：（置信度损失+分类损失+定位损失）
$\lambda_1L_{conf}(o,c) + \lambda_2L_{cla}(O,C) + \lambda_3L_{loc}(l,g)$
$\lambda_1$ , $\lambda_2$ , $\lambda_3$ 为平衡系数。

置信度损失：
在这里插入图片描述
$L_{conf}(o,c) = \frac{\sum_{i}(o_iln(\hat{c_i})+(1-o_i)ln(1-\hat{c_i}))}{N}$
$\hat{c_i}=sigmoid(c_i)$
其中 $o_i\in[0,1]$ ，表示预测目标边界框与真实边界框的 $I O U$ ， $c$ 为预测值， $\hat{c_i}$ 为 $c$ 通过 $s i g m o i d$ 函数得到的预测置信度，N为正负样本个数。

类别损失：
在这里插入图片描述
$L_{cla}(O,C) = - \frac{\sum\limits_{i \in pos}\sum\limits_{j \in cla}(O_{ij}ln(\hat{C_{ij}})+(1-O_{ij})ln(1-\hat{C_{ij}}))}{N_{pos}}$
$\hat{C_{ij}} = Sigmoid(C_{ij})$
其中 $O_{ij}\in$ {0,1}，表示预测预测目标边界框 $i$ 中是否存在第 $j$ 类目标， $C_{ij}$ 为预测值， $\hat{C_{ij}}$ 为 $C_{ij}$ 通过 $S i g m o i d$ 函数得到的目标概率， $N_{pos}$ 为正样本个数。

定位损失：
训练期间使用差值平方计算方式：
在这里插入图片描述

在这里插入图片描述

原文链接：https://blog.csdn.net/qq_34621022/article/details/115013379