CenterFusion：融合雷达与摄像头数据的高精度3D目标检测

编译 | CV君
报道 | 我爱计算机视觉（微信id:aicvml）

介绍一篇新出的论文 CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection ，旨在使用低成本的雷达（redar）替换自动驾驶中的激光雷达，并达到高精度3D目标检测的方法。

该文作者信息：

作者来自田纳西大学诺克斯维尔分校。

激光雷达使用发射的激光测距进行环境感知，而雷达使用无线电发射进行探测。

3D目标检测在自动驾驶领域应用广泛，而激光雷达（Lidar）和摄像头数据的融合常用来进行高精度的3D目标检测，但其仍有一些缺点。比如对远处目标检测不精确、对天气敏感（雨雪大雾天气等），而且不能直接得到目标的速度。

而低成本的雷达则相对具有天然优势：无惧恶劣天气，长远距离检测能力强（200M也OK），且天然还有目标速度信息。

但雷达数据更加稀疏，不能直接将激光雷达的方法直接套用，数据在输入层和后处理部分的融合不能取得很好的效果。

该文将摄像头采集的图像数据和雷达数据进行中间特征层的融合，以达到精确的3D目标检测。

该文算法流程图：

CenterFusion 网络架构

算法流程：

1. 首先使用CenterNet算法进利用摄像头数据预测目标的中心点，并回归得到目标的3D坐标、深度、旋转等信息

2. 然后作者将雷达检测到的目标数据和上面检测到的目标中心点进行关联，作者了视锥的方法

3. 将关联后的目标的特征和雷达数据检测到的深度和速度信息组成的特征图并联，在进行3D目标深度、旋转、速度和属性的回归。

其中关键步骤是CenterNet检测结果与雷达点目标的关联，在三维空间视锥法找到对应目标的示意图：

Frustum association 视锥法关联

关联结果，该文方法为下图中最小面的结果：

解决高度信息不准确的问题，引入了雷达点云预处理步骤，pillar expansion，将每个雷达点扩展为一个固定大小的柱子

作者在nuScenes 数据集上的 3D 目标检测性能比较：

可见该文的融合方法取得了显著的精度提升，相比以前的SOTA精度提升12%。

nuScenes 数据集上进行 3D 目标检测的每类性能比较：

检测结果示例：

摄像头和 BEV （鸟瞰图）中的 3D 目标检测结果

目前，作者已将代码开源：

欢迎参考~

END