Yolov3的代码运行流程
Yolov3的代码运行流程如下:
包含准备,训练和测试3个阶段。
1.准备阶段
1.找到划分好的train.txt(里面包含划分好的训练图片编号,包含train和val)。
2.创建txt文件用于记录xml文件的路径和box坐标。
3.导入解析XML文件的包 import xml.etree.ElementTree as ET 属于voc_annotation.py这个文件。
4.打开VOCdevkit下Annotations的xml文件,利用ET遍历每张图片对应的xml文件里的object,
获取box的四个坐标(Xmin,Ymin,Xmax,Ymax),还有类别id(cls_id)。
5.将图片路径还有box的4个坐标和类别id写入之前创建的txt。
6.利用k-means算法生成9个簇的anchor(cluster_number = 9),每个尺寸输出3个anchor
7.具体做法为:
打开之前的生成的txt文件(包含图片路径,图片里box的4个坐标和所属类别id)
通过坐标计算的到每个box的宽和高,利用k-means算法从所有的box集合里随机选取9((cluster_number )个box作为中心点
clusters = boxes[np.random.choice(box_number, k, replace=False)]生成中心簇
用distances = 1 - self.iou(boxes, clusters)来计算每个box离哪个簇最近,获取该簇索引
簇的分类结束之后利用dist=np.median的方式更新簇,再次利用新的中心点进行计算直到中心点不改变为止
返回得到的簇的中心点(anchor的宽高),按照第一维度(宽)进行排序,存入保存anchor的yolo_anchors.txt
2.训练阶段
1.初始化路径(annotation_path,log_dir,classes_path,anchors_path,class_names)
2.获取类别数量(num_classes),anchors(k-means生成),输入图片尺寸(416 * 416)
3.创建yolo模型: model = create_model(input_shape, anchors, num_classes)
创建模型里面具体包括:
清除会话 K.clear_session()
定义3个输出尺寸 y_true = [Input(shape=(h//{0:32, 1:16, 2:8}[l], w//{0:32, 1:16, 2:8}[l], num_anchors//3, num_classes+5)) for l in range(3)]
定义模型主体结构,即yolo的模型结构 model_body = yolo_body(image_input, num_anchors//3, num_classes)
定义损失函数 model_loss = Lambda(yolo_loss, output_shape=(1,), name=‘yolo_loss’,arguments={‘anchors’: anchors, ‘num_classes’: num_classes, ‘ignore_thresh’: 0.5})([*model_body.output, *y_true])
定义模型输入输出,设置损失函数 model = Model([model_body.input, *y_true], model_loss)
返回模型 return model
4.定义Tensorboard logging = TensorBoard(log_dir=log_dir)
5.定义checkpoint checkpoint = ModelCheckpoint(log_dir + ‘ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5’,monitor=‘val_loss’, save_weights_only=True, save_best_only=True, period=3)
6.定义Keras的回调函数ReduceLROnPlateau 训练过程优化学习率 reduce_lr = ReduceLROnPlateau(monitor=‘val_loss’, factor=0.1, patience=3, verbose=1)
7.定义提前终止 early_stopping = EarlyStopping(monitor=‘val_loss’, min_delta=0, patience=10, verbose=1)
8.配置模型,设置激活函数和损失函数 model.compile(optimizer=Adam(lr=1e-3), loss={‘yolo_loss’: lambda y_true, y_pred: y_pred})
9.以batch_size为16训练模型 model.fit_generator(迭代器的形式,防止内存溢出)
训练模型前生成真实数据,通过get_random_data获取数据增强后的数据(图片和box)
数据增强使用的方法如下:
1.随机位移生成图片
(随机生成宽高比resize图片(宽比高小的情况,用高做缩放然后乘以宽高比得到宽),然后生成和原图大小一样的灰图,将缩放后的图片粘贴到新图片上)
2.随机左右翻转生成图片
3.HSV抖动生成图片
通过preprocess_true_boxes的方法获取图片3个尺寸的最佳anchor(通过计算box和anchor的iou确定,其置信度设为1)
10.保存模型 (头网络和全网络)
model.save_weights(log_dir + ‘trained_weights_stage_1.h5’)
model.save_weights(log_dir + ‘trained_weights_final.h5’)
3.测试阶段
1.定义测试图片的路径 pic_path=os.path.abspath(os.path.dirname(file))+os.sep+‘test1.jpg’
2.打开图片 img = Image.open(pic_path)
3.检测图片 img=y.detect_image(img)
具体流程如下:
通过letterbox_image把图片调整为模型的输入图片大小
开启会话启动图 代码必背
加载模型
产生不同颜色用于绘制bounding box hsv_tuples = [(x / len(self.class_names), 1., 1.) for x in range(len(self.class_names))]
hsv转化为rgb self.colors = list(map(lambda x: colorsys.hsv_to_rgb(*x), hsv_tuples))
通过yolo_eval()利用 NMS (非极大值抑制)筛选出每个尺寸的最佳anchor,并返回box,类别和得分
之后使用PIL的ImageDraw工具包来绘制box和text
设置目标框线条的宽度 thickness = (image.size[0] + image.size[1]) // 300
获取box的坐标位置
之后添加文字框和文字
返回图片