关注前沿科技 量子位

用几何图形来实时构建高精地图,真香!

就是雨天也不在话下~

我们都知道,实时高精地图,能为自动驾驶汽车提供及时、紧凑且语义丰富的环境信息。但如何提高它的稳健性、有效应对各种复杂场景,成为一大挑战。

来自北理、港中文、腾讯AI Lab团队引入一种新表征学习方法——GeMap,端到端学习地图实例中的几何形状和关系。

结果在各种遮挡、路口转弯的场景也能表现平稳,并实现SOTA。该论文被ECCV 2024收录。

来看看这到底是如何做到的?

高精地图的几何表示

在线矢量化高清 (HD) 地图的构建对于下游预测和规划至关重要。

然而,城市道路系统中实例的形状和关系仍未得到充分探索,例如矩形、平行、垂直或特定车道宽度。

此外,当车辆前进或转弯时,这些形状和关系属性将保持不变。以前的方法基于绝对坐标来格式化实例,在这种情况下,绝对坐标对平移和旋转很敏感。

团队提出了GeMap(几何地图),它以端到端的方式学习地图实例的欧几里得形状和关系,超越了基本感知。

来看看具体框架。

首先,透视图 (PV) 图像被转换为鸟瞰图 (BEV) 特征,然后几何解耦解码器输出矢量化高清地图。

在解码器的每个块中,查询首先通过欧几里得形状和关系注意力进行处理,重点关注几何相关性。

最后,通过形状和关系约束在 G-Representations 中增强预测。

几何表示

团队引入了捕捉单个地图实例的形状(欧几里得形状线索)和不同实例之间的关系(欧几里得关系线索)的几何表示。

欧几里得形状线索。位移向量的长度和相邻向量之间的角度构成形状线索,用于计算形状损失。例如,矩形与 90 度角和两个相等的边相关。

欧几里得关系线索。 点对之间的距离和位移矢量对之间的角度表示关系线索。关系线索与欧几里得关系几何有更表面的联系,例如平行或垂直。

几何解耦注意力

一种被MapTR,PivotNet等采用的架构将地图元素上的每一个点对应到Transformer的一个查询。这一架构的问题在于:对两大类的几何性质(关系和形状)不加区分。

在自注意力中,所有查询(也就是“点”)之间都平等地相互作用。然而,地图元素的形状对应着一组一组的查询。这些组之间的交互,在感知元素形状时就成为了累赘。反之在感知元素之间关联的时候,形状亦成为了冗余因素。这意味着将形状、关联的感知解耦,可能带来更好的结果

他们提出了几何解耦注意力(GDA)。GDA 将 vanilla 自注意力模块解耦为欧几里得形状注意力(捕获实例内几何)和欧几里得关系注意力(捕获实例间几何)。

实验结果

他们在nuScenes和Argoverse 2两个数据集上进行了大量实验。

两者都是常用的大规模自动驾驶数据集,且提供了地图标注。

主要结果

在nuScenes上,他们进行了三组实验。

我们首先使用了一种比较纯粹的目标函数组合,只包括几何损失和其它必要的损失(如点到点距离、边的方向、分类),这一组合是为了体现我们提出的几何性质的重要价值,而不过多追求SOTA的结果。

可以看到,在这种情况下,相比于MapTR,我们的方法能在mAP提升了4%。为了探索GeMap的极限,团队还加上了一些辅助目标,包括分割和深度估计,在这种情况下实现了SOTA(mAP提升0.7%)。

值得注意的是,取得这样的提升并不需要牺牲太多的推理速度。

最后,我们还尝试了引入额外的LiDAR模态输入,在额外模态输入的加持下,GeMap的性能也能取得进一步提升。

同样,在Argoverse 2数据集上也取得了非常突出的效果。

消融实验

在nuScenes上进一步进行的消融实验证明了几何损失和几何解耦注意力的价值。

有趣的是,正如团队所预料的,直接使用几何损失反而会带来模型表现的下降。他们认为这是因为结构上的对形状和关联处理的耦合,导致模型很难优化几何表示;而在与几何解耦注意力结合之后,几何损失就发挥了应有的作用。

此外,我们还在nuScenes上进行了可视化分析。可视化的结果表明,GeMap除了具有对旋转和平移的鲁棒性,在处理遮挡问题上也表现出了一定优势,如下图。图中有挑战性的地图元素使用橘色方框标出。

对于对遮挡的鲁棒性,在雨天的实验结果中也得到了定量验证。

(因为雨水对相机有天然的遮挡)

这可以解释为模型学到了几何性质,因此即使有遮挡,也能更好地猜出地图元素。

例如,模型理解了车道线的形状,那么只需要”看到“一部分,就能够估计剩下的部分;模型理解了车道线之间的平行关系,或者车道的宽度特点,因此哪怕其中一条被遮挡,也能根据平行、宽度因素猜测被遮挡的部分。

在自动驾驶系统中,几何性质实际上广泛存在。

例如,在3D目标检测中,车辆的朝向在同车道上通常具有一致性;在运动预测中,轨迹本身具有形状上的先验;在3D车道线检测中具有车道宽度先验。

不过,GeMap本身的感知距离相对有限,可以对此进行针对性的改进以增强长距离的感知。

比较常见的思路包括增加时序融合模块;将相机、激光雷达、毫米波雷达等多种传感器输入有机地融合,实现感知距离上的优势互补。

论文链接:https://arxiv.org/abs/2312.03341

项目主页:https://invictus717.github.io...

GitHub源代码:https://github.com/cnzzx/GeMap

—  —

投稿请发邮件到:

mailto:ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你


量子位
10 声望1 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。