Yolov3的代码运行流程

Yolov3的代码运行流程如下:

包含准备,训练和测试3个阶段。

1.准备阶段

1.找到划分好的train.txt(里面包含划分好的训练图片编号,包含train和val)。

2.创建txt文件用于记录xml文件的路径和box坐标。

3.导入解析XML文件的包 import xml.etree.ElementTree as ET 属于voc_annotation.py这个文件。

4.打开VOCdevkit下Annotations的xml文件,利用ET遍历每张图片对应的xml文件里的object,

获取box的四个坐标(Xmin,Ymin,Xmax,Ymax),还有类别id(cls_id)。

5.将图片路径还有box的4个坐标和类别id写入之前创建的txt。

6.利用k-means算法生成9个簇的anchor(cluster_number = 9),每个尺寸输出3个anchor

7.具体做法为:

打开之前的生成的txt文件(包含图片路径,图片里box的4个坐标和所属类别id)

通过坐标计算的到每个box的宽和高,利用k-means算法从所有的box集合里随机选取9((cluster_number )个box作为中心点

clusters = boxes[np.random.choice(box_number, k, replace=False)]生成中心簇

用distances = 1 - self.iou(boxes, clusters)来计算每个box离哪个簇最近,获取该簇索引

簇的分类结束之后利用dist=np.median的方式更新簇,再次利用新的中心点进行计算直到中心点不改变为止

返回得到的簇的中心点(anchor的宽高),按照第一维度(宽)进行排序,存入保存anchor的yolo_anchors.txt

2.训练阶段

1.初始化路径(annotation_path,log_dir,classes_path,anchors_path,class_names)

2.获取类别数量(num_classes),anchors(k-means生成),输入图片尺寸(416 * 416)

3.创建yolo模型: model = create_model(input_shape, anchors, num_classes)

创建模型里面具体包括:

清除会话 K.clear_session()

定义3个输出尺寸 y_true = [Input(shape=(h//{0:32, 1:16, 2:8}[l], w//{0:32, 1:16, 2:8}[l], num_anchors//3, num_classes+5)) for l in range(3)]

定义模型主体结构,即yolo的模型结构 model_body = yolo_body(image_input, num_anchors//3, num_classes)

定义损失函数 model_loss = Lambda(yolo_loss, output_shape=(1,), name=‘yolo_loss’,arguments={‘anchors’: anchors, ‘num_classes’: num_classes, ‘ignore_thresh’: 0.5})([*model_body.output, *y_true])

定义模型输入输出,设置损失函数 model = Model([model_body.input, *y_true], model_loss)

返回模型 return model

4.定义Tensorboard logging = TensorBoard(log_dir=log_dir)

5.定义checkpoint checkpoint = ModelCheckpoint(log_dir + ‘ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5’,monitor=‘val_loss’, save_weights_only=True, save_best_only=True, period=3)

6.定义Keras的回调函数ReduceLROnPlateau 训练过程优化学习率 reduce_lr = ReduceLROnPlateau(monitor=‘val_loss’, factor=0.1, patience=3, verbose=1)

7.定义提前终止 early_stopping = EarlyStopping(monitor=‘val_loss’, min_delta=0, patience=10, verbose=1)

8.配置模型,设置激活函数和损失函数 model.compile(optimizer=Adam(lr=1e-3), loss={‘yolo_loss’: lambda y_true, y_pred: y_pred})

9.以batch_size为16训练模型 model.fit_generator(迭代器的形式,防止内存溢出)

训练模型前生成真实数据,通过get_random_data获取数据增强后的数据(图片和box)

数据增强使用的方法如下:

1.随机位移生成图片
(随机生成宽高比resize图片(宽比高小的情况,用高做缩放然后乘以宽高比得到宽),然后生成和原图大小一样的灰图,将缩放后的图片粘贴到新图片上)

2.随机左右翻转生成图片

3.HSV抖动生成图片

通过preprocess_true_boxes的方法获取图片3个尺寸的最佳anchor(通过计算box和anchor的iou确定,其置信度设为1)

10.保存模型 (头网络和全网络)
model.save_weights(log_dir + ‘trained_weights_stage_1.h5’)
model.save_weights(log_dir + ‘trained_weights_final.h5’)

3.测试阶段

1.定义测试图片的路径 pic_path=os.path.abspath(os.path.dirname(file))+os.sep+‘test1.jpg’

2.打开图片 img = Image.open(pic_path)

3.检测图片 img=y.detect_image(img)

具体流程如下:

通过letterbox_image把图片调整为模型的输入图片大小

开启会话启动图 代码必背

加载模型

产生不同颜色用于绘制bounding box hsv_tuples = [(x / len(self.class_names), 1., 1.) for x in range(len(self.class_names))]

hsv转化为rgb self.colors = list(map(lambda x: colorsys.hsv_to_rgb(*x), hsv_tuples))

通过yolo_eval()利用 NMS (非极大值抑制)筛选出每个尺寸的最佳anchor,并返回box,类别和得分

之后使用PIL的ImageDraw工具包来绘制box和text

设置目标框线条的宽度 thickness = (image.size[0] + image.size[1]) // 300

获取box的坐标位置

之后添加文字框和文字

返回图片


版权声明:本文为weixin_50693466原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。