Yolo v3 - tensorflow代码解读

参考：

YOLO是目标检测算法，相较于目标识别算法，检测算法不仅能够预测出目标的类别，还能预测出目标的位置。

整个YOLO网络框架图如下图所示，图片摘自博客：https://blog.csdn.net/KKKSQJ/article/details/83587138

以下代码来源：https://www.kaggle.com/aruchomu/yolo-v3-object-detection-in-tensorflow/data

搭建YOLO框架：

搭建YOLO框架需要用到Tensorflow、Numpy、Pillow（图像处理库）使用Seaborn库中的调色板为bounding boxes 着色。最后使用IPython中的disply函数显示图像。

import tensorflow as tf

import numpy as np

from PIL import Image, ImageDraw, ImageFont

from IPython.display import display

from seaborn import color_palette

import cv2

接下来设置模块参数：

_BATCH_NORM_DECAY = 0.9

_BATCH_NORM_EPSILON = 1e-05

_LEAKY_RELU = 0.1

_ANCHORS = [(10, 13), (16, 30), (33, 23),

(30, 61), (62, 45), (59, 119),

(116, 90), (156, 198), (373, 326)]

_MODEL_SIZE = (416, 416)

不同尺寸特征图对应不同大小的先验框。

13*13feature map对应【（116*90），（156*198），（373*326）】

26*26feature map对应【（30*61），（62*45），（59*119）】

52*52feature map对应【（10*13），（16*30），（33*23）】

原因：特征图越大，感受野越小。对小目标越敏感，所以选用小的anchor box。

特征图越小，感受野越大。对大目标越敏感，所以选用大的anchor box。

其中_BATCH_NORM_EPSILON代表公式中参数的精确度（小数点的位数），_BATCH_NORM_DECAY代表批量移动的动能（momentum）,它用来计算移动的平均值和方差，在训练的过程中，正向传播会用到这些参数。

moving_average = momentum * moving_average + (1 - momentum) * current_average

Leaky ReLU:

该激活函数是在ReLU的基础上做的轻微修改，目的是防止出现“神经元死亡”的现象，即大量的激活值变为0。_LEAKY_RELU 是指图中的α。

.锚框（Anchors）：

Anchors是一种先验框，是在COCO数据集上通过K均值聚类估算得到的，我们将预测的框的宽高，作为簇中心的补偿。利用sigmoid函数预测了box相对于filter application位置的中心坐标。

锚框的作用：Yolov3根据图像特征，对每一个像素都预测出对应的锚框，再根据IOU值，置信度对锚框进行筛选，得到与目标框最接近的锚框后，再利用回归训练以下参数值，使这些参数对应的预测框最大程度接近真实目标框。

其中bx，by是框的坐标中心，bw，bh是框的宽高。Cx 和cy是filter application的位置，ti是经过回归预测的。

模块定义：

我参考了Tensorflow中的官方ResNet（残差网络）实现，了解了如何对代码进行重新排列。

Batch norm and fixed padding

定义batch_norm函数很有用，因为模型大量使用具有共享参数的批处理规范（batch norm）。此外，与ResNet相同，Yolo使用固定padding的卷积，这意味着padding仅由内核的大小定义。

    ### 批量标准化和固定填充 ###
def batch_norm(inputs, training, data_format):
    """用一组标准参数执行批量标准化"""
    return tf.layers.batch_normalization(
        inputs=inputs, axis=1 if data_format == 'channels_first' else 3,
        momentum=_BATCH_NORM_DECAY, epsilon=_BATCH_NORM_EPSILON,
        scale=True, training=training)

def fixed_padding(inputs, kernel_size, data_format):
    """ResNet implementation of fixed padding.

    Pads the input along the spatial dimensions independently of input size.

    Args:
        inputs: 被填充的张量.
        kernel_size: 卷积和池化的核的大小
        data_format: 输入的数据格式
    Returns:
        返回一个和输入格式相同的张量
    """
    pad_total = kernel_size - 1
    pad_beg = pad_total // 2 # 整数除法，返回整数
    pad_end = pad_total - pad_beg

    if data_format == 'channels_first':
        padded_inputs = tf.pad(inputs, [[0, 0], [0, 0],
                                        [pad_beg, pad_end],
                                        [pad_beg, pad_end]])
    else:
        padded_inputs = tf.pad(inputs, [[0, 0], [pad_beg, pad_end],
                                        [pad_beg, pad_end], [0, 0]])
    return padded_inputs

def conv2d_fixed_padding(inputs, filters, kernel_size, data_format, strides=1):
    """带填充的二维卷积."""
    if strides > 1: # 若步长大于1
        inputs = fixed_padding(inputs, kernel_size, data_format)

    return tf.layers.conv2d(
        inputs=inputs, filters=filters, kernel_size=kernel_size,
        strides=strides, padding=('SAME' if strides == 1 else 'VALID'),
        use_bias=False, data_format=data_format)

特征提取:Darknet-53:

在特征提取方面，Yolo使用了在ImageNet上预处理的Darknet-53神经网络。与ResNet一样，Darknet-53具有快捷(残差)连接，这有助于更上层的信息进一步流动。Yolo省略了最后3层(Avgpool, Connected和Softmax)，因为Yolo只用Darknet-53提取特征。框架中每个卷积核的参数是随机给出的，服从高斯分布，每次运行程序卷积核内的值都不一样，但都能提取图像特征，不会造成过拟合。


def darknet53_residual_block(inputs, filters, training, data_format,
                             strides=1):
    """为 Darknet 创建残差块"""
    shortcut = inputs # 残差块的输入

    inputs = conv2d_fixed_padding(
        inputs, filters=filters, kernel_size=1, strides=strides,
        data_format=data_format)
    # conv2d_fixed_padding返回的是卷积层，赋值给inputs，即执行卷积核为1的卷积层
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    # batch_norm返回的是batch_normalization层，赋值给inputs，即执行BN层
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    # 执行激活函数Leaky_Relu

    inputs = conv2d_fixed_padding(
        inputs, filters=2 * filters, kernel_size=3, strides=strides,
        data_format=data_format)
    # 执行卷积核为3的卷积层，其输入为上一层的激活函数Leaky_Relu的输出,filters指卷积的通道个数
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    # 执行BN层
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    # 执行 激活函数Leaky_Relu

    inputs += shortcut #残差连接部分，将残差块的输出与残差块之前的输出进行累加。

    return inputs


def darknet53(inputs, training, data_format):
    """创建 Darknet53 模型进行特征提取"""
    inputs = conv2d_fixed_padding(inputs, filters=32, kernel_size=3,
                                  data_format=data_format)
    # 使用32个3*3的卷积核对输入图像进行卷积，步长默认为1
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    # 批量标准化BN层
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    # 激活函数Leaky_Relu激活后输出
    inputs = conv2d_fixed_padding(inputs, filters=64, kernel_size=3,
                                  strides=2, data_format=data_format)
    # 接上层输出，使用64个3*3的卷积和，步长为2（降维）
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    # BN层
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    # 激活函数Leaky_Relu激活后输出

    inputs = darknet53_residual_block(inputs, filters=32, training=training,
                                      data_format=data_format)
    # 返回 上层的输出经过残差块后的值 与 上层输出值 的和

    inputs = conv2d_fixed_padding(inputs, filters=128, kernel_size=3,
                                  strides=2, data_format=data_format)
    # 128个3*3的卷积核，步长为2
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    # 每个卷积层后都接一个BN层
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(2):
        inputs = darknet53_residual_block(inputs, filters=64,
                                          training=training,
                                          data_format=data_format)
    # 累加两个残差块

    inputs = conv2d_fixed_padding(inputs, filters=256, kernel_size=3,
                                  strides=2, data_format=data_format)
    # 3*3*256 步长为2
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(8):
        inputs = darknet53_residual_block(inputs, filters=128,
                                          training=training,
                                          data_format=data_format)
    # 累加8个残差块

    route1 = inputs
    # 存储输出，若输入为416*416，此时为52*52*256，用于输出前的两个输出的合并（concat）

    inputs = conv2d_fixed_padding(inputs, filters=512, kernel_size=3,
                                  strides=2, data_format=data_format)
    # 3*3*512 步长为2
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(8):
        inputs = darknet53_residual_block(inputs, filters=256,
                                          training=training,
                                          data_format=data_format)
    # 累加8个残差块

    route2 = inputs
    # 存储输出，此时为26*26*512，用于输出前的两个输出的合并（concat）

    inputs = conv2d_fixed_padding(inputs, filters=1024, kernel_size=3,
                                  strides=2, data_format=data_format)
    # 3*3*1024 步长为2
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(4):
        inputs = darknet53_residual_block(inputs, filters=512,
                                          training=training,
                                          data_format=data_format)
    # 累加4个残差块，此时输出为13*13*1024

    return route1, route2, inputs
    # 使用darknet53进行特征提取的部分结束，返回52*52*256，26*26*512，3*3*1024 三个特征提取输出结果

用于分组的卷积层：

Yolo定义了大量的卷积层用于对提取的特征进行分组。

### 对提取的特征进行分组 ###
def yolo_convolution_block(inputs, filters, training, data_format):
    """使用Darknet后创建卷积操作层"""
    inputs = conv2d_fixed_padding(inputs, filters=filters, kernel_size=1,
                                  data_format=data_format)
    # 1*1*filters 其中filters对应Darknet层输出的filters
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3,
                                  data_format=data_format)
    # 3*3*(filters*2)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=filters, kernel_size=1,
                                  data_format=data_format)
    # 1*1*filters
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3,
                                  data_format=data_format)
    # 3*3*(filters*2)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=filters, kernel_size=1,
                                  data_format=data_format)
    # 1*1*filters
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    route = inputs
    # 存储输出数据，用于上采样后与DarkNet相应的输出数据合并（concat）

    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3,
                                  data_format=data_format)
    # 3*3*(filters*2)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    return route, inputs

Yolov3最终检测层：

Yolo有3个检测层，分别使用各自的锚框在3个不同的尺度上进行检测。对于feature map中的每个单元（cell），检测层使用1x1卷积预测n_anchor * (5 + n_classes)值。(5是指5个参数：tx,ty,tw,th,to表示框的4个坐标信息和1个置信度信息。n_anchor=3，n_classes=类的个数，每个参数代表属于该类的概率。) 对于每个scale，我们都有n_anchor = 3。5 + n_classes表示，对于3个锚点我们分别预测4个坐标。

### 检测层 ###
def yolo_layer(inputs, n_classes, anchors, img_size, data_format):
    """创建Yolo最终检测层。

   检测与锚框相关的框

    参数:
        inputs: 张量（三维矩阵）输入.
        n_classes: 类的数量
        anchors: 锚框大小组成的列表
        img_size: 模型的输入大小
        data_format: 输入数据的格式

    Returns:
        Tensor output.
    """
    n_anchors = len(anchors) # n_anchors 是由元组组成的列表

    inputs = tf.layers.conv2d(inputs, filters=n_anchors * (5 + n_classes),
                              kernel_size=1, strides=1, use_bias=True,
                              data_format=data_format)
    # 1*1*filter 卷积层，取出每一个单元的数据

    shape = inputs.get_shape().as_list()# get_shape()只有张量才能使用，返回一个元组，as_list(),将元组转换为列表
    grid_shape = shape[2:4] if data_format == 'channels_first' else shape[1:3]
    if data_format == 'channels_first':
        inputs = tf.transpose(inputs, [0, 2, 3, 1])
    inputs = tf.reshape(inputs, [-1, n_anchors * grid_shape[0] * grid_shape[1],
                                 5 + n_classes])
    #将inputs reshape 成 (3*h*w) * (5+n_classes) 的矩阵。

    strides = (img_size[0] // grid_shape[0], img_size[1] // grid_shape[1])
    #计算步长img_size是模型的输入大小，此处比值应该为1

    box_centers, box_shapes, confidence, classes = \
        tf.split(inputs, [2, 2, 1, n_classes], axis=-1)
    #沿着最后一个下标变化的方向进行切分，即按列切分

    x = tf.range(grid_shape[0], dtype=tf.float32)
    # 返回数字序列，若grid_shape[0]=3，则x=[0 1 2]
    y = tf.range(grid_shape[1], dtype=tf.float32)
    x_offset, y_offset = tf.meshgrid(x, y)
    # 将x_offset, y_offset都转换为x行y列. 相当于给每一个元素添加一个“组”标签
    x_offset = tf.reshape(x_offset, (-1, 1))
    # -1可看做事一个未知数，reshape成一列，自动计算行数

    y_offset = tf.reshape(y_offset, (-1, 1))
    x_y_offset = tf.concat([x_offset, y_offset], axis=-1)
    # 按列合并（行数不变，列数增加）
    x_y_offset = tf.tile(x_y_offset, [1, n_anchors])
    # 行不变，列复制3次（列扩充3倍）

    x_y_offset = tf.reshape(x_y_offset, [1, -1, 2])
    # reshape 成1行2列，维数自动（该列表只有一个元素，元素事列表，该列表有2列，很多行）

    box_centers = tf.nn.sigmoid(box_centers)
    # 与tf.sigmoid 相同
    box_centers = (box_centers + x_y_offset) * strides
    # box_centers 是n维2列的数组

    anchors = tf.tile(anchors, [grid_shape[0] * grid_shape[1], 1])
    # 锚框大小，列不变，行复制 h*w 次
    box_shapes = tf.exp(box_shapes) * tf.to_float(anchors)
    # 按照公式计算预测框的实际大小

    confidence = tf.nn.sigmoid(confidence)
    # 归一化置信度

    classes = tf.nn.sigmoid(classes)
    # 归一化类的概率

    inputs = tf.concat([box_centers, box_shapes,
                        confidence, classes], axis=-1)
    # 将处理后的数据按列拼接（行数不变，列数增加）赋给inputs

    return inputs

上采样层：

为了将dark-53的快捷输出连接起来用到不同尺度的检测中，YOLO使用最近邻插值法对输出图像进行上采样。

### 上采样层 ###
def upsample(inputs, out_shape, data_format):
    """使用最近邻插值法将inputs的size调整为out_shape描述的size."""
    # data_format 是指 inputs 的数据格式名称
    # input 和 out_shape 的数据格式相同
    if data_format == 'channels_first':
        inputs = tf.transpose(inputs, [0, 2, 3, 1]) # 转换为channels_last数据格式
        new_height = out_shape[3]# channels_first格式的行数
        new_width = out_shape[2]# channels_first格式的列数
    else:
        new_height = out_shape[2]# channels_last格式的行数
        new_width = out_shape[1]# channels_last格式的列数

    inputs = tf.image.resize_nearest_neighbor(inputs, (new_height, new_width))
    # 此时inputs 是 challels_last 格式，使用最近邻插值调整input的高宽，调整为new_height, new_width

    if data_format == 'channels_first':
        inputs = tf.transpose(inputs, [0, 3, 1, 2])
    # 再input 调整为cahnnels_first的格式

    return inputs

非极大值抑制：

YOLOv3模型会产生很多个预测框，所以需要一种方法来丢弃那些置信度低的预测框。此外，为了避免为一个对象使用多个预测框预测，还丢弃具有高重叠度的预测框，并对每个类做非极大值抑制。

### 非极大值抑制 ###
def build_boxes(inputs):
    """计算框的左上角和右下角的点."""
    center_x, center_y, width, height, confidence, classes = \
        tf.split(inputs, [1, 1, 1, 1, 1, -1], axis=-1)
    # -1是未知数，自动填写

    top_left_x = center_x - width / 2
    top_left_y = center_y - height / 2
    bottom_right_x = center_x + width / 2
    bottom_right_y = center_y + height / 2

    boxes = tf.concat([top_left_x, top_left_y,
                       bottom_right_x, bottom_right_y,
                       confidence, classes], axis=-1)
    # 将Boxe中的数据重新合并（列不变，对行进行调整）

    return boxes

def non_max_suppression(inputs, n_classes, max_output_size, iou_threshold,
                        confidence_threshold):
    """分别对每一个类执行非极大值抑制。

    Args:
        inputs: 张量输入.
        n_classes: 类的数量.
        max_output_size: 为每个类选择的框数的最大值
        iou_threshold: IOU的阈值
        confidence_threshold: 置信度的阈值
    Returns:
        返回批次中每个样本的{类：预测框}字典所组成的列表
    """
    batch = tf.unstack(inputs)
    # 对inputs进行分解，默认axis=0 安装样本数进行分解, 每个样本有一个boxes矩阵

    boxes_dicts = []
    for boxes in batch:
        boxes = tf.boolean_mask(boxes, boxes[:, 4] > confidence_threshold)
        #只保留boxes中，与不等式结果为Ture的下标相同的部分（保留置信度大于阈值的box）
        classes = tf.argmax(boxes[:, 5:], axis=-1)
        # 对每一行的从第5到最后一列的数，按行比较，返回最大值的索引
        classes = tf.expand_dims(tf.to_float(classes), axis=-1)
        # 给calsse的最后一维添加一个维度
        boxes = tf.concat([boxes[:, :5], classes], axis=-1)
        # 合并两个矩阵，按列拼接
        # 合并两个矩阵，行不变，按列拼接（类的最后加一个类别置信度的最大值）

        boxes_dict = dict()
        # 创建一个字典
        for cls in range(n_classes):
            mask = tf.equal(boxes[:, 5], cls)
            # 比较所有行的第五列的元素与cls，相等则返回Ture不等则返回False
            mask_shape = mask.get_shape()
            if mask_shape.ndims != 0:
                class_boxes = tf.boolean_mask(boxes, mask)
                # 只保留boxes中 与mask的元素中值为Ture的下标相同 的元素
                # 此处boxes的元素是一个向量
                boxes_coords, boxes_conf_scores, _ = tf.split(class_boxes,
                                                              [4, 1, -1],
                                                              axis=-1)
                boxes_conf_scores = tf.reshape(boxes_conf_scores, [-1])
                # reshape成一个向量
                indices = tf.image.non_max_suppression(boxes_coords,
                                                       boxes_conf_scores,
                                                       max_output_size,
                                                       iou_threshold)
                # tf.image中自带的最大值抑制函数，返回符合要求的boxes_coords的索引
                class_boxes = tf.gather(class_boxes, indices)
                # 可以使用tf.gather操作获取与所选索引对应的边界框坐标
                boxes_dict[cls] = class_boxes[:, :5]
                # 将符合要求的预测框信息存入字典。

        boxes_dicts.append(boxes_dict)
        #将字典存入列表，直到循环结束

    return boxes_dicts

定义最终的模型类：

最后，使用前面描述的所有层来定义模型类。

class Yolo_v3:
    """Yolo v3 模型类"""

    def __init__(self, n_classes, model_size, max_output_size, iou_threshold,
                 confidence_threshold, data_format=None):
        # 类中构造函数，第一个参数必须是self
        """创建 model.

        Args:
            n_classes: 类的数量
            model_size: 模型的输入大小.
            max_output_size: 每个类选择的框数的最大值
            iou_threshold: IOU阈值
            confidence_threshold: 置信度阈值
            data_format: 输入格式

        Returns:
            None.
        """
        if not data_format:
            if tf.test.is_built_with_cuda():
                data_format = 'channels_first'
            else:
                data_format = 'channels_last'
        # 确定data_format

        self.n_classes = n_classes
        self.model_size = model_size
        self.max_output_size = max_output_size
        self.iou_threshold = iou_threshold
        self.confidence_threshold = confidence_threshold
        self.data_format = data_format
        # 给变量赋值

    def __call__(self, inputs, training):
        """为一批输入图像添加检测框

        Args:
            inputs: 代表一批输入图像的张量
            training:一个布尔值，用于训练或推理模型

        Returns:
            对于每个批次返回一个包含{类：框}字典的列表
        """
        with tf.variable_scope('yolo_v3_model'):
            # tf.variable_scope可以让不同命名空间中的变量取相同的名字
            if self.data_format == 'channels_first':
                inputs = tf.transpose(inputs, [0, 3, 1, 2])
            # 输入转为channels_last格式

            inputs = inputs / 255
            # 归一化

            route1, route2, inputs = darknet53(inputs, training=training,
                                               data_format=self.data_format)
            # 利用datknet53提取3种尺寸的特征

            route, inputs = yolo_convolution_block(
                inputs, filters=512, training=training,
                data_format=self.data_format)
            # Yolov3的卷积操作，输出数据用于上采样与合并
            # 此处选取的输入是input13*13*1024
            detect1 = yolo_layer(inputs, n_classes=self.n_classes,
                                 anchors=_ANCHORS[6:9],
                                 img_size=self.model_size,
                                 data_format=self.data_format)
            # 锚框列表选择后三个(116, 90), (156, 198), (373, 326)大尺寸，对应特征图13*13
            # 特征图越小感受野越大，选用大的锚框
            # 输出未带有预测框信息的张量，赋给的detect1

            inputs = conv2d_fixed_padding(route, filters=256, kernel_size=1,
                                          data_format=self.data_format)
            # 待填充的2维卷积，用卷积核大小未1的卷积对route进行卷积
            # 将13*13*512的张量变为13*13*256
            inputs = batch_norm(inputs, training=training,
                                data_format=self.data_format)
            # BN层 批量标准化
            inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
            # 激活函数Leaky_Relu
            upsample_size = route2.get_shape().as_list()
            # 获取route2的size作为上采样后的size
            inputs = upsample(inputs, out_shape=upsample_size,
                              data_format=self.data_format)
            # 上采样，最近邻插值法将route 的size转为route2的size
            axis = 1 if self.data_format == 'channels_first' else 3
            # 根据数据类型选择通道维度
            inputs = tf.concat([inputs, route2], axis=axis)
            # # 根据通道与低级特征进行合并
            route, inputs = yolo_convolution_block(
                inputs, filters=256, training=training,
                data_format=self.data_format)
            # 经过5个卷积分为route,inputs 两组
            detect2 = yolo_layer(inputs, n_classes=self.n_classes,
                                 anchors=_ANCHORS[3:6],
                                 img_size=self.model_size,
                                 data_format=self.data_format)
            # 输出未带有预测框信息的张量，赋给的detect2

            inputs = conv2d_fixed_padding(route, filters=128, kernel_size=1,
                                          data_format=self.data_format)
            inputs = batch_norm(inputs, training=training,
                                data_format=self.data_format)
            inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

            upsample_size = route1.get_shape().as_list()
            inputs = upsample(inputs, out_shape=upsample_size,
                              data_format=self.data_format)
            inputs = tf.concat([inputs, route1], axis=axis)
            # 根据通道与低级特征进行合并
            route, inputs = yolo_convolution_block(
                inputs, filters=128, training=training,
                data_format=self.data_format)
            # 同样的方式再分为route,inputs 两组

            detect3 = yolo_layer(inputs, n_classes=self.n_classes,
                                 anchors=_ANCHORS[0:3],
                                 img_size=self.model_size,
                                 data_format=self.data_format)
            # 输出未带有预测框信息的张量，赋给的detect3

            inputs = tf.concat([detect1, detect2, detect3], axis=1)
            # 根据通道将三种尺寸的预测结果合并

            inputs = build_boxes(inputs)
            # 根据输出得到预测框的真实值

            boxes_dicts = non_max_suppression(
                inputs, n_classes=self.n_classes,
                max_output_size=self.max_output_size,
                iou_threshold=self.iou_threshold,
                confidence_threshold=self.confidence_threshold)
            # 分别对每一类进行非极大值抑制
            # 返回批次中每个样本的{类：预测框}字典所组成的列表

            return boxes_dicts

5.公用函数：

公用函数主要用来，以数组形式加载图像，从文件中读取类名，绘制预测框

### 公用函数 ###
def load_images(img_names, model_size):
    """以4维数组的形式加载图像
    Args（参数）:
        img_names: 图像名称列表.
        model_size: 模型的输入大小.
        data_format: 4维数组的格式
            ('channels_first' or 'channels_last').

    Returns:
        返回一个4维数组
    """
    imgs = []

    for img_name in img_names:
        #从图像名称列表中提取每一个名称
        img = Image.open(img_name)
        # 打开该图像名称对应的图像
        img = img.resize(size=model_size)
        # 将图像大小转换未model_size的大小，此处model_size=416*416
        img = np.array(img, dtype=np.float32)
        # 转换为2维数组
        img = np.expand_dims(img, axis=0)
        # 增加一个维度变为3维
        imgs.append(img)
        # 三维数组存入列表，此时列表为4维

    imgs = np.concatenate(imgs)
    # 将多个4维数组拼接起来

    return imgs


def load_class_names(file_name):
    """返回从' file_name '读取的类名列表."""
    with open(file_name, 'r') as f:
        class_names = f.read().splitlines()
    return class_names


def draw_boxes(img_names, boxes_dicts, class_names, model_size):
    """画预测框
    Args:
        img_names: 输入的图像名称列表
        boxes_dict:{类：框}字典
        class_names: 类名组成的列表
        model_size: 模型size
    Returns:
        None.
    """
    colors = ((np.array(color_palette("hls", 80)) * 255)).astype(np.uint8)
    # 颜色列表
    for num, img_name, boxes_dict in zip(range(len(img_names)), img_names,
                                         boxes_dicts):
        img = Image.open(img_name)
        # 打开图片
        draw = ImageDraw.Draw(img)
        # 画图
        # font = ImageFont.truetype(font='../input/futur.ttf', size=(img.size[0] + img.size[1]) // 100)
        font = ImageFont.truetype("arial.ttf", size=(img.size[0] + img.size[1]) // 100)
        resize_factor = (img.size[0] / model_size[0], img.size[1] / model_size[1])
        # 获取比例

        for cls in range(len(class_names)):
            boxes = boxes_dict[cls]
            # 类名对应的boxes信息
            if np.size(boxes) != 0:
                color = colors[cls]
                for box in boxes:
                    xy, confidence = box[:4], box[4]
                    xy = [xy[i] * resize_factor[i % 2] for i in range(4)]
                    x0, y0 = xy[0], xy[1]
                    thickness = (img.size[0] + img.size[1]) // 200
                    for t in np.linspace(0, 1, thickness):
                        xy[0], xy[1] = xy[0] + t, xy[1] + t
                        xy[2], xy[3] = xy[2] - t, xy[3] - t
                        draw.rectangle(xy, outline=tuple(color))
                    text = '{} {:.1f}%'.format(class_names[cls],
                                               confidence * 100)
                    text_size = draw.textsize(text, font=font)
                    # 文字大小
                    draw.rectangle(
                        [x0, y0 - text_size[1], x0 + text_size[0], y0],
                        fill=tuple(color))
                    # 绘制矩形
                    draw.text((x0, y0 - text_size[1]), text, fill='black',
                              font=font)
                    # 在图片上添加文字

        display(img)

6.加载权重文件

遍历文件并逐步创建tf.assign操作

### 将权重转换为Tensorflow格式 ###
### 不了解权重文件格式，这部分没看懂 ###
def load_weights(variables, file_name):
    """重塑和加载 Yolo 权重

    Args:
        variables: 待分配的 tf.Variable权重列表
        file_name: 权重文件名称

    Returns:
       一个分配操作的列表
    """
    with open(file_name, "rb") :
        # rb:以二进制格式打开一个文件用于只读
        # with模块结束后f会自动关闭
        np.fromfile(file_name, dtype=np.int32, count=5)
        # 跳过不含相关信息的前5个值,按照int32类型读入数据
        weights = np.fromfile(file_name, dtype=np.float32)
        # 按照float32类型读入数据

        assign_ops = []
        ptr = 0

        # 加载Darknet53部分的权重
        # 每个卷积层都有批量归一化
        for i in range(52):
            conv_var = variables[5 * i]
            gamma, beta, mean, variance = variables[5 * i + 1:5 * i + 5]
            batch_norm_vars = [beta, gamma, mean, variance]

            for var in batch_norm_vars:
                shape = var.shape.as_list()
                num_params = np.prod(shape)
                var_weights = weights[ptr:ptr + num_params].reshape(shape)
                ptr += num_params
                assign_ops.append(tf.assign(var, var_weights))
                # tf.assign(): 把var_weights 的值赋给var ,按照var原来的数据格式返回

            shape = conv_var.shape.as_list()
            num_params = np.prod(shape)
            var_weights = weights[ptr:ptr + num_params].reshape(
                (shape[3], shape[2], shape[0], shape[1]))
            var_weights = np.transpose(var_weights, (2, 3, 1, 0))
            ptr += num_params
            assign_ops.append(tf.assign(conv_var, var_weights))

        # 加载YoloV3部分的权重.
        # 第7、15、23层有偏差，没有批量归一化
        ranges = [range(0, 6), range(6, 13), range(13, 20)]
        unnormalized = [6, 13, 20]
        for j in range(3):
            for i in ranges[j]:
                current = 52 * 5 + 5 * i + j * 2
                conv_var = variables[current]
                gamma, beta, mean, variance =  \
                    variables[current + 1:current + 5]
                batch_norm_vars = [beta, gamma, mean, variance]

                for var in batch_norm_vars:
                    shape = var.shape.as_list()
                    num_params = np.prod(shape)
                    var_weights = weights[ptr:ptr + num_params].reshape(shape)
                    ptr += num_params
                    assign_ops.append(tf.assign(var, var_weights))

                shape = conv_var.shape.as_list()
                num_params = np.prod(shape)
                var_weights = weights[ptr:ptr + num_params].reshape(
                    (shape[3], shape[2], shape[0], shape[1]))
                var_weights = np.transpose(var_weights, (2, 3, 1, 0))
                ptr += num_params
                assign_ops.append(tf.assign(conv_var, var_weights))

            bias = variables[52 * 5 + unnormalized[j] * 5 + j * 2 + 1]
            shape = bias.shape.as_list()
            num_params = np.prod(shape)
            var_weights = weights[ptr:ptr + num_params].reshape(shape)
            ptr += num_params
            assign_ops.append(tf.assign(bias, var_weights))

            conv_var = variables[52 * 5 + unnormalized[j] * 5 + j * 2]
            shape = conv_var.shape.as_list()
            num_params = np.prod(shape)
            var_weights = weights[ptr:ptr + num_params].reshape(
                (shape[3], shape[2], shape[0], shape[1]))
            var_weights = np.transpose(var_weights, (2, 3, 1, 0))
            ptr += num_params
            assign_ops.append(tf.assign(conv_var, var_weights))

    return assign_ops

7.运行模型

目标检测

将IOU阈值和置信度阈值都设置为0.5来测试模型。

### 运行模型 ###
img_names = ['dog.jpg', 'person.jpg']
for img in img_names:
    imgShow=Image.open(img)
    display(imgShow) # 展示图片信息

### 测试模型 ###
batch_size = len(img_names)
batch = load_images(img_names, model_size=_MODEL_SIZE)
# print(batch)
class_names = load_class_names('coco.names')
n_classes = len(class_names)
max_output_size = 20
iou_threshold = 0.5
confidence_threshold = 0.5

model = Yolo_v3(n_classes=n_classes, model_size=_MODEL_SIZE,
                max_output_size=max_output_size,
                iou_threshold=iou_threshold,
                confidence_threshold=confidence_threshold)

inputs = tf.placeholder(tf.float32, [batch_size, 416, 416, 3])

detections = model(inputs, training=False)

model_vars = tf.global_variables(scope='yolo_v3_model')
assign_ops = load_weights(model_vars, 'yolov3.weights')

with tf.Session() as sess:
    sess.run(assign_ops)
    detection_result = sess.run(detections, feed_dict={inputs: batch})

draw_boxes(img_names, detection_result, class_names, _MODEL_SIZE)