人工智能 - BEV常见的开源算法系列二 | BEV下的多模态融合 - 个人文章

BEV感知系列分享是整数智能推出的一个全新分享系列，在这个系列中，我们将介绍BEV感知相关的算法和数据集等内容。BEV感知系列主要分为以下几篇文章：

BEV感知，是下一代自动驾驶感知算法风向吗？
BEV感知的开源数据集分享
BEV常见的开源算法系列
- BEV空间的生成
- BEV下的多模态融合
- BEV下的时序融合

在本系列中，我们将介绍截至目前为止发布的优秀BEV算法。

我们将该系列分为BEV空间的生成、BEV下的多模态融合算法、BEV下的时序融合算法。本篇将重点介绍BEV下的多模态融合算法。多传感器信息融合技术的基本原理就像人的大脑综合处理信息的过程一样，将各种传感器进行多层次、多空间的信息互补和优化组合处理，最终产生对观测环境的一致性解释。在这个过程中要充分地利用多源数据进行合理支配与使用，而信息融合的最终目标则是基于各传感器获得的分离观测信息，通过对信息多级别、多方面组合导出更多有用信息。这不仅是利用了多个传感器相互协同操作的优势，而且也综合处理了其它信息源的数据来提高整个传感器系统的智能化。BEV空间的多模态融合充分利用了各类传感器收集的信息进一步提高了BEV空间下的算法感知精度。

BEV下的多模态融合

01 BEVFusion

【论文地址】https://arxiv.org/abs/2205.13790
【简介】
最近人们设计了激光雷达-相机融合的深度网络，以更好地利用这两种模式的信息。作者认为激光雷达-相机融合的理想框架应该是无论其他模式是否存在，单一模式的每个模型都不应该失败，而同时拥有两种模式将进一步提高感知精度。为此作者提出了BEVFusion，该框架有两个独立的流，它们将来自相机和激光雷达传感器的原始输入编码为同一BEV空间中的特征。然后设计了一个简单的模块来融合这两个流之后的BEV级融合特征，这样最终的特征就可以传递到现代任务预测头架构中。
【算法结构】

BEVFusion将相机流和激光雷达流独立，然后通过融合模块将两个独立的流融合。

相机流
- image-view Encoder：该模块的目的是将输入图像编码为富含语义信息的深度特征。由一个用于基本特征提取的二维主干网络和一个用于尺度变化物体表示的颈部模块组成。作者选择Dual-Swin-Tiny作为主干网络，在主干网络之后使用标准的特征金字塔网络（FPN），以利用来自多尺度分辨率的特征。为了更好地调整这些特征，作者提出了一个简单地特征自适应模块（ADP）来完善上采样地特征
- View Project Module：由于图像特征仍然是二维图像坐标，作者设计了一个视图投影模块，将其转换为三维自驾车坐标。该模块将图像视图特征作为输入，通过分类方式密集地预测深度，然后根据相机的外在参数和预测的图像深度，推导出图像-视图特征，在预定的点云中渲染，得到一个伪体素
- BEV Encoder Module：作者采用空间到通道操作将V从4D张量转化为3D张量,以保留语义信息并降低成本，而不是应用池化操作或用步长为2的3D卷积来压缩z维度。然后使用四个3x3的卷积层，逐步将信道维度减少到，并提取高层次的语义信息。该编码器直接处理全分辨率的相机BEV特征以保留空间信息
激光雷达流作者采用了PointPillars, CenterPoint和TransFusion作为LiDAR流（）
融合模块：为了有效地融合来自相机和激光雷达传感器的BEV特征，作者提出了下图中的动态融合模块。给定相同空间维度下的两个特征，一个直观的想法是将它们串联起来，用可学习的静态权重来融合它们。融合模块可以被表述为：

动态融合模块

其中[ , ]表示沿通道维度的拼接操作。是通过3x3卷积层实现的静态信道和空间融合函数，将连接到的特征的信道维数降低。输入特征，可表示为：，其中W为线性变换矩阵，为全局平均池化σ为sigmoid函数。
【实验结果】
在没有任何测试时间增加或模型集成的情况下，BEVFusion超越了所有以前的激光雷达-摄像机融合方法，并实现了69.2% mAP的最先进性能，而TransFusion的mAP为68.9%。

nuScenes验证集和测试集的结果

02 AutoAlignV2

【论文地址】https://arxiv.org/abs/2207.10316
【简介】作者提出了AutoAlignV2，这是一个建立在AutoAlign之上的更快、更强的多模态3D检测框架。
点云和RGB图像是自动驾驶中常用的两种感知源。前者能提供准确的对象定位，后者语义信息更密集、更丰富。最近，AutoAlign在结合这两种模式进行3D对象检测方面提出了一个可学习的范式。但是它的计算成本很高。为了解决这一问题，作者提出了跨域变形CAFA模块。该方法采用稀疏的可学习采样点进行跨模态关系建模，提高了对校准误差的容错能力，大大加快了跨模态特征聚合的速度。为了克服多模态条件下复杂的GT-AUG，作者设计了一种简单有效的基于深度信息的图像小块凸组合的跨模态增强策略。此外，通过执行一种新的图像级辍学训练方案，该模型能够以动态的方式进行推断。
【算法结构】

AutoAlignV2算法网络结构

AutoAlignV2的目的是有效地聚合图像特征，以进一步增强3D目标检测器的性能。该算法的检测流程为：

将成对的图像输入到一个轻量级的主干ResNet中
再输入FPN以获得特征映射
在体素化阶段，通过可学习的对齐映射聚合相关图像信息，丰富非空体素的三维表示
最后，将增强的特征输入后续的3D检测管道，生成实例预测

【实验结果】

不同算法在nuScenes上的测试排行榜

03 PointAugmenting

【论文地址】https://openaccess.thecvf.com...
【简介】
作者提出了跨模态三维物体检测算法PointAugmenting，一方面PointAugmenting通过预先训练的2D检测模型提取相应的点状CNN特征来装饰点云，然后在装饰过的点云上进行三维物体检测。与高度抽象的语义分割分数来装饰点云相比，来自检测网络的CNN特征适应物体的外观变化，实现了显著的改进。另一方面，PointAugmenting得益于一种新颖的跨模式数据增强算法，该算法在网络训练期间持续地将虚拟物体粘贴到图像和点云中。
【算法结构】

作者采用CenterPoint作为lidar地基线，并通过跨模态融合机制和有效地数据增强方案对其进行扩展，上图展示了PointAugmenting网络架构，其包含两个阶段：

点的特征获取：将激光雷达点投影到图像平面上，然后用提取的CNN特征点进行附加
3D检测：作者对CenterPoint进行了扩展，为相机特征添加了一个额外的3D稀疏卷积流，并在BEV地图中融合了不同形态的特征。

【实验结果】

nuScenes测试集上的预测结果

BEV常见的开源算法系列二 | BEV下的多模态融合

BEV下的多模态融合

01 BEVFusion

02 AutoAlignV2

03 PointAugmenting

整数智能AI研究院

引用和评论

整数智能重磅推出集成SAM的智能标注工具2.0

一文掌握 MCP 上下文协议：从理论到实践

LRU算法，你别跑，我就要吃透你

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读