自动驾驶中的行人检测技术有哪些？（上）

在汽车行业，行人检测一直是一个研究热点与难点。

自动驾驶对于行人检测的准确性要求极高，行人姿态变化、衣着打扮、随机运动甚至室外光线等问题都会影响到检测的准确性。

使用高精度的传感器有利于算法结果准确，但高精度的传感器非常昂贵，成本和精度无法兼得，这种矛盾在过去一直很难解决。

相比之下，使用廉价的摄像机获取图像，通过处理图像来检测到行人的位置以及运动趋势，从而取代雷达，压缩成本，该过程就是行人检测技术。

目前为止，面向智慧交通的行人检测技术已经取得了不少的成就，本文将从行为检测的技术构成、主要分类及特点等方向进行简要阐述。

在自动驾驶中，行人检测主要是指对车载摄像设备获取的实时视频进行检测，通过获取行人的相关信息来辅助车辆自动行驶的相关技术。

行人检测与一般的目标检测存在着较大差异，大多数目标检测方法并不完全适用于行人定位，主要原因有以下几点:

1）小目标行人定位准确度较低。远距离成像的行人通常目标较小、分辨率较低，缺乏明显的特征信息，易受到噪声影响，因此，检测算法难以精准定位小目标行人，识别难度较大。

2）行人多姿态的特性导致定位准确度低。区别于一般的目标检测，道路行人往往具有多姿态、随性的特征，此类不确定性会加大算法识别难度。

3）背景影响对检测的干扰。行人检测受背景影响较大，如光照变化、行人周围轮廓等干扰都会直接影响算法定位，从而出现误判、漏判，加大准确识别难度。

4）目标重叠、遮挡对算法识别的影响。道路通常会出现人挨人、人挤人现象，这无意加大了识别难度，尽管目前的行人检测方法已能处理局部遮挡问题，但对于大面积、较严重的遮挡问题仍难以解决。

这些问题是行人检测技术的难点，同时也是目标检测领域的研究热点。

在实际应用中，行人检测系统面临的是一个开放的环境，要考虑不同的路况、天气和光线变化，不仅要具备高实时性，同时也对算法的鲁棒性提出较高要求。

随着图像处理技术的发展，越来越多的研究人员提出了基于图像分割、深度学习、混合模态等行人检测方法来解决以上问题，这也让行人检测技术得到了长足的进步。

顾名思义，图像分割是将图像分解为若干个特定区域，再将这些区域划为不同的类别，以便提取不同的目标区域。

传统的行人检测技术主要依赖于图像分割法，该方法不仅计算速度快，且节约硬件资源，但该方法易受其他因素干扰，如背景、遮挡等，对行人检测的准确度不高。

现阶段，有三种基于图像分割的行人检测技术应用甚广，分别为阈值分割检测法、边缘分割检测法和语义分割检测法。

其中，阈值分割检测法是最常见的检测方法，该方法使用图像灰度特征进行灰度计算，通过设定不同的特征阈值，将图像中的像素点划分为若干类，进而与阈值进行对比来完成分割。

边缘检测法则是寻找出图像的灰度、颜色、肌理等图像特点忽然改变的地方，从而将其作为图像边缘进行分割。该方法受复杂背景影响较小，对于边界特征较明显的行人检测精度较高。

语义分割检测法是利用卷积神经网络对复杂环境进行分割，该方法通常具有较好的检测精度，稳定性较高。使用语义分割方法可以使提取到的行人特征更典型，增强模型的泛化能力。

相较传统机器学习检测方法，基于深度学习的行人检测方法具备更高的准确率和鲁棒性。

近年来，深度学习技术已广泛应用于各类图像处理中，非常适用于行人检测，促进了无人驾驶车辆系统在行人检测等多个核心领域的发展。

主流的深度学习行人检测方法可以分为两类：

1）以区域卷积神经网络（R-CNN）、快速区域卷积神经网络（Fast R-CNN）、高速区域卷积神经网络（Faster R-CNN）为代表的基于候选框的方法。

2）以 YOLO（You Only Look Once）、轻量级目标检测（Single Shot MultiBox Detector，SSD）为代表的基于回归的方法。

这两种方法的差异性在于前者将候选区域的选定和目标边界框的推理识别放置于两个完全不同的过程阶段中，而后者则是一步到位，省去了网络训练和推理计算的复杂性，这也是目前主流的方案都是单阶段的主要原因。

未完待续....