YOLO目标检测模型重新训练

介绍

图片描述

YOLO目标检测快速上手这篇文章我们通过简短的代码就实现了一个视频目标检测功能。本文将介绍如何使用其他数据集重新训练YOLO模型，文章将会详细介绍每一步。

下载数据集

我们将使用Pascal VOC数据集训练我们的模型，该数据集可以用来做图像分类、目标检测、图像分割。
下载并解压文件后，我们介绍下相关文件的作用。

“Annotations”文件夹：用于存放图片描述，文件格式为.xml，具体内容如下图所示：

如图所示，文件保存了图片文件名，尺寸，标注，坐标，是否分割等信息。

“ImageSets”文件夹：保存了不同用途的图片名字列表，文件格式是.txt。

“layout”文件夹：保存具有人体部位的图片名字列表。
“main”文件夹：保存用于图像物体识别的图片名字列表。
“segmenttions”文件夹：保存用于图像分割的图片名字列表。
因为本次项目使用“main”文件夹，所以我们再详细看下：

文件夹一共有20个分类的文件，通过文件名字我想大家肯定也知道作用了。这里介绍下文件里的正负数代表正负样本，如：

“JPEGImages”文件夹：保存全部图片源文件。

这里我们要留意的是图片名字，以后我们在自己创建数据集的时候，最好也参考此命名方式。

“SegmentationClass”，“SegmentationObject”保存用于图像分割的源图片，两者区别如图所示：

创建标签

标签的结构是四维分别是("类别"，“中心点x坐标”，“中心点y”坐标，“图片宽度”，“图片高度”)，其实就是上面所说的图片xml文件中的内容。我们可以通过官方提供的python文件来执行此操作。

# 获取py文件
wget https://pjreddie.com/media/files/voc_label.py

执行此文件之前留意下相关路径是否正确

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join

sets=[('2007', 'train'), ('2007', 'val'), ('2007', 'test')]

classes = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]


def convert(size, box):
    dw = 1./size[0]
    dh = 1./size[1]
    x = (box[0] + box[1])/2.0
    y = (box[2] + box[3])/2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)

def convert_annotation(year, image_id):
    in_file = open('VOCdevkit/VOC%s/Annotations/%s.xml'%(year, image_id))
    out_file = open('VOCdevkit/VOC%s/labels/%s.txt'%(year, image_id), 'w')
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

wd = getcwd()

for year, image_set in sets:
    if not os.path.exists('VOCdevkit/VOC%s/labels/'%(year)):
        os.makedirs('VOCdevkit/VOC%s/labels/'%(year))
    image_ids = open('VOCdevkit/VOC%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split()
    list_file = open('%s_%s.txt'%(year, image_set), 'w')
    for image_id in image_ids:
        list_file.write('%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg\n'%(wd, year, image_id))
        convert_annotation(year, image_id)
    list_file.close()

执行py文件：

python voc_label.py

执行成功后会生成一个label文件夹和三个txt文件，分别是“2007_train.txt”,"2007_test.txt","2007_val.txt"（我只下载了2007的数据集），文件保存的是对应功能的全部图片路径：

label文件夹内文件格式：

分别是：("类别"，“中心点x坐标”，“中心点y”坐标，“图片宽度”，“图片高度”)

修改配置文件

打开darknet/cfg/voc.data,修改“train”，“valid”文件路径。

“classes”：数据集中图片分类数量。
“train”：用于训练的图片数据集绝对路径。
“valid”：用于验证的图片数据集绝对路径。
“names”：数据集中图片分类名字，如：“dog”，“person”等。
“backup”：模型训练完成后，权重文件保存路径。

模型训练

首先下载YOLOv3模型：

wget https://pjreddie.com/media/files/darknet53.conv.74

训练之前，我们先看下yolov3-voc.cfg文件里都是什么：

[net]
# Testing
# batch=1
# subdivisions=1 

# 模型训练模式
Training 
# batch_size
batch=64
# 用于进一步分割batch_size,分割后的batch_size大小为：batch_size/subdivisions
subdivisions=16
# 模型输入图像宽
width=416
# 模型输入图像高
height=416
# 图像通道数
channels=3
# 使用带动量优化函数的动量参数
momentum=0.9
# 权重衰减率，用于防止过拟合
decay=0.0005

# 以下4项是通过改变图像角度，饱和度，曝光量，色调来生成更多样本，可用于防止过拟合
angle=0
saturation = 1.5
exposure = 1.5
hue=.1

# 初始学习率
learning_rate=0.001
burn_in=1000
# 迭代次数
max_batches = 50200
# 当迭代到40000，45000时更改学习率
policy=steps
steps=40000,45000
scales=.1,.1



[convolutional]
# BN标准化处理，可以通过改变数据分布，处理梯度过小问题，加快模型收敛
batch_normalize=1
# 输出特征大小
filters=32
# 卷积核大小3x3
size=3
# 卷积步长为1
stride=1
# pad为0,padding由 padding参数指定。如果pad为1，padding大小为size/2
pad=1
# 激活函数，和relu的区别是当输入值小于0时，输出不为0
activation=leaky

**。。。。。省略。。。。。。**

[yolo]
mask = 0,1,2
# 预选框，可手动指定也可通过聚类学习得到
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
# 识别种类
classes=20
# 每个cell预测box数量，yolov1时只有一个
num=9
# 增加噪声
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=1

执行训练：

./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74

训练完成后，权重文件保存在backup文件夹内。

总结

如果训练我们自己的数据，数据准备工作参考VOC数据集，在模型训练之前还要更改cfg/yolov3-voc.cfg文件，修改classes类别数量和filter数量，其中filter计算方式：3*(classes+1+4)，然后训练即可。

YOLO目标检测模型重新训练

介绍

下载数据集

创建标签

修改配置文件

模型训练

总结

醇岩

引用和评论

语义分割浅析

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

Anaconda安装教程以及Anaconda和pip配置国内镜像

OpenAI API Key 获取并用GPT-4o 图像生成：使用 Node JS代码调用示例

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）