Yolov3的代码运行流程

Yolov3的代码运行流程如下：

Yolov3的代码运行流程如下：

包含准备，训练和测试3个阶段。

1.准备阶段

1.找到划分好的train.txt(里面包含划分好的训练图片编号，包含train和val)。

2.创建txt文件用于记录xml文件的路径和box坐标。

3.导入解析XML文件的包 import xml.etree.ElementTree as ET 属于voc_annotation.py这个文件。

4.打开VOCdevkit下Annotations的xml文件,利用ET遍历每张图片对应的xml文件里的object，

获取box的四个坐标(Xmin,Ymin,Xmax,Ymax),还有类别id(cls_id)。

5.将图片路径还有box的4个坐标和类别id写入之前创建的txt。

6.利用k-means算法生成9个簇的anchor(cluster_number = 9)，每个尺寸输出3个anchor

7.具体做法为：

打开之前的生成的txt文件(包含图片路径，图片里box的4个坐标和所属类别id)

通过坐标计算的到每个box的宽和高，利用k-means算法从所有的box集合里随机选取9((cluster_number )个box作为中心点

clusters = boxes[np.random.choice(box_number, k, replace=False)]生成中心簇

用distances = 1 - self.iou(boxes, clusters)来计算每个box离哪个簇最近，获取该簇索引

簇的分类结束之后利用dist=np.median的方式更新簇，再次利用新的中心点进行计算直到中心点不改变为止

返回得到的簇的中心点(anchor的宽高)，按照第一维度(宽)进行排序，存入保存anchor的yolo_anchors.txt

2.训练阶段

1.初始化路径(annotation_path，log_dir，classes_path，anchors_path，class_names)

2.获取类别数量(num_classes)，anchors(k-means生成)，输入图片尺寸(416 * 416)

3.创建yolo模型: model = create_model(input_shape, anchors, num_classes)

创建模型里面具体包括：

清除会话 K.clear_session()

定义3个输出尺寸 y_true = [Input(shape=(h//{0:32, 1:16, 2:8}[l], w//{0:32, 1:16, 2:8}[l], num_anchors//3, num_classes+5)) for l in range(3)]

定义模型主体结构，即yolo的模型结构 model_body = yolo_body(image_input, num_anchors//3, num_classes)

定义损失函数 model_loss = Lambda(yolo_loss, output_shape=(1,), name=‘yolo_loss’,arguments={‘anchors’: anchors, ‘num_classes’: num_classes, ‘ignore_thresh’: 0.5})([*model_body.output, *y_true])

定义模型输入输出，设置损失函数 model = Model([model_body.input, *y_true], model_loss)

返回模型 return model

4.定义Tensorboard logging = TensorBoard(log_dir=log_dir)

5.定义checkpoint checkpoint = ModelCheckpoint(log_dir + ‘ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5’,monitor=‘val_loss’, save_weights_only=True, save_best_only=True, period=3)

6.定义Keras的回调函数ReduceLROnPlateau 训练过程优化学习率 reduce_lr = ReduceLROnPlateau(monitor=‘val_loss’, factor=0.1, patience=3, verbose=1)

7.定义提前终止 early_stopping = EarlyStopping(monitor=‘val_loss’, min_delta=0, patience=10, verbose=1)

8.配置模型，设置激活函数和损失函数 model.compile(optimizer=Adam(lr=1e-3), loss={‘yolo_loss’: lambda y_true, y_pred: y_pred})

9.以batch_size为16训练模型 model.fit_generator(迭代器的形式，防止内存溢出)

训练模型前生成真实数据，通过get_random_data获取数据增强后的数据(图片和box)

数据增强使用的方法如下:

1.随机位移生成图片
（随机生成宽高比resize图片(宽比高小的情况，用高做缩放然后乘以宽高比得到宽)，然后生成和原图大小一样的灰图，将缩放后的图片粘贴到新图片上）

2.随机左右翻转生成图片

3.HSV抖动生成图片

通过preprocess_true_boxes的方法获取图片3个尺寸的最佳anchor(通过计算box和anchor的iou确定，其置信度设为1)

10.保存模型 (头网络和全网络)
model.save_weights(log_dir + ‘trained_weights_stage_1.h5’)
model.save_weights(log_dir + ‘trained_weights_final.h5’)

3.测试阶段

1.定义测试图片的路径 pic_path=os.path.abspath(os.path.dirname(file))+os.sep+‘test1.jpg’

2.打开图片 img = Image.open(pic_path)

3.检测图片 img=y.detect_image(img)

具体流程如下：

通过letterbox_image把图片调整为模型的输入图片大小

开启会话启动图代码必背

加载模型

产生不同颜色用于绘制bounding box hsv_tuples = [(x / len(self.class_names), 1., 1.) for x in range(len(self.class_names))]

hsv转化为rgb self.colors = list(map(lambda x: colorsys.hsv_to_rgb(*x), hsv_tuples))

通过yolo_eval()利用 NMS (非极大值抑制)筛选出每个尺寸的最佳anchor，并返回box，类别和得分

之后使用PIL的ImageDraw工具包来绘制box和text

设置目标框线条的宽度 thickness = (image.size[0] + image.size[1]) // 300

获取box的坐标位置

之后添加文字框和文字

返回图片

原文链接：https://blog.csdn.net/weixin_50693466/article/details/113043884