Waymo-自动驾驶长尾问题挑战(2019)

自动驾驶加油站

阅读 6 分钟

1

尽管Waymo已经在开放道路上积累超过10 Million Miles，Waymo的工程师们仍然发现有层出不穷的新自动驾驶场景待解决。

1、自动驾驶长尾场景举例

场景一：一个骑自行车的人手中拿着一个Stop Sign标识牌。我们不知道它何时会举起标识牌。无人车必须理解这种场景，即使他举起了Stop Sign标识牌，自动驾驶汽车也不应该停下来。

场景二: 迎面而来的车辆上装载的塑料管子撒了一地，自动驾驶汽车必须学会应对这种突发情况，并且避开它们对无人车行驶的影响。

场景三：由于道路施工等因素，路面布满锥桶。无人车必须正确识别这些场景，在布满路面锥桶的场景下实现合理驾驶。

场景四：路口绿灯，无人车拥有路权，虽然我们的无人车先到达路口，但必须为稍后到达的特种车辆让行。

场景五： 路口绿灯，无人车准备左转，遇到闯红灯高速通过的社会车辆，无人车需要识别这种场景，并及时停车避让违规车辆。

2、自动驾驶核心模块-Perception, Prediction和Planning

Perception、Prediction和Planning模块是自动驾驶的核心模块，每个模块都存在巨大的挑战。

2.1 Perception

Perception输入：传感器(激光雷达)输入信息以及场景的先验信息。

Perception输出：道路交通对象(行人、车辆等)，对道路场景的语义分割和理解。

Perception本身是一个非常复杂、高难度的问题，它必须能够识别各种形态各异、不同种类的对象。比如下左一图，一群穿着恐龙服的行人，感知必须能够正确识别它们。

相同的物体在不同的时间、不同的季节它们的外观表现也会有很大的差异，这会对Perception带来巨大挑战。

各种复杂场景的分割理解难度极高。如下图左一：一个搬着箱子的人；下图左三：骑马的人。Perception必须能够正确的分割识别这些场景，而不会因为遮挡导致出现识别的错误。

2.2 Prediction

Perception对检测到的物体进行下一步行为的预测，以辅助自动驾驶车辆进行合理的行为决策。

Perception要考虑物体的历史行为，比如车辆不会在短时间内实现90度的转弯，因此我们可以假设车辆在短时间内仍然按照当前的朝向和速度前进；要对场景有更高语义层面的理解；要能够关注到不同对象的属性差异和视觉线索，比如车辆大概率是会在车道上行驶上，行人会走斑马线，车辆的朝向能够大概率反应它的意图，如果行人做出停车的手势，大概率是要过马路；要能够解决待预测物体与其它物体的行为交互。

如下图所示，路边有一辆静止的车辆，骑自行车的人在靠近静止车辆时，会侵入无人车车道。Perception模块需要正确理解这些场景，并生成合理的预测曲线。

如何能够准确的预测社会车辆的行为仍然是一个存在巨大挑战的开放性问题。

2.3 Planning

Planning是Decision Making Machine，它基于Perception和Prediction的输出，规划车辆的行为，并输出Control模块，控制车辆的加减速、刹车等行为。

Planning首要考虑的是安全(safe)，其次要考虑驾乘的舒适性(comfortable)，再次要能够与其它交通参与者正确交互，最后要保证乘客送达目的地。如何能够满足这些条件实现良好的Planning效果仍然是一个开放性的问题。

3. 大规模机器学习技术(Machine Learning At Scale)

Machine Learning是解决自动驾驶长尾问题的一种有效工具。利用Machine Learning技术可以实现从数据采集、标注、训练、车端部署的闭环循环流程，从而实现Case的不断积累，模型的不断完善。

3.1 Automated Machine Learning技术

Waymo使用了Automated Machine Learning技术生成和优化针对无人车的数据模型，极大提升了模型训练的效率。

3.2 机器学习技术的局限(Limits Of Machine Learning)

机器学习模型不能解决所有的问题，但我们需要的是一个安全的自动驾驶系统，所以必须有其它措施来补充ML的不足。

首先可以借助于冗余互补的传感器辅助解决这个问题。车辆同时配备了视觉、Lidar、Radar系统，各个系统彼此独立，相互补充，以最大限度保证无人车不会缺失任何信息。

其次，我们可以采用ML和Non-ML混合系统，利用专家系统来弥补ML的不足。

4、大规模的测试技术(Large Scale Testing)

首先Waymo有庞大的自动驾驶车队，可以支撑大规模的测试。

有些场景在实际道路上出现的概率很低，为了测试验证这些低频问题，需要自己构建场景，进行结构化测试。

仿真是一种重要的验证测试手段，可以轻量级安全的构造各种各样的测试场景。

自动驾驶仿真必须能够真实模拟车辆和行人的行为。这仅仅依靠简单的规则模型是不够的，我们需要更加复杂的模型，Waymo使用一种Mid-2-Mid的Drive Agent机器学习模型，它接收定位、感知等信息，输出更加拟人化的运动规划。

Waymo提出的ChauffeurNet将Map、交通规则、道路环境等信息转化为图像信息，从而可以最大限度的利用比较成熟的机器学习模型，最终输出Agent的Trajectory。

ChauffeurNet可以解决大部分简单场景下的Prediction和Planning问题。

场景中红色的拖尾是Agent的历史轨迹，绿色是未来2s的预测轨迹。

主车成功的通过路边静止车辆的场景

主车遇到缓慢前行的车辆后减速

当然ChauffeurNet也有其局限性，比如以下复杂场景目前还不能很好的处理。

主车由于视距遮挡，直接冲出了路口

车辆没有成功完成掉头操作

5、机器学习难以覆盖的长尾问题挑战

对自动驾驶测试来讲，最大的挑战在于很难收集到所有Corner Case。如下图所示，是人类驾驶行为分布，要经过非常长时间的积累才能得到一些Corner的驾驶行为Case。

在自动驾驶网络的神经网络模型中，可能有上千万的参数，如果Corner Case的样本数量太少，就难以保证网络模型能够学会这些Corner场景。

在神经网络模型覆盖长尾Case前，如何来解决长尾Case呢？专家系统是一个选择。专家系统融入专业的知识，通过小批量的样本就可以获得效果比较好的参数。

比如我们计划得到实现一个轨迹优化机器学习模型，在基于运动控制理论和一系列的约束设计好专家模型之后，通过采集历史车辆轨迹，我们就可以调整参数最小化Cost的方法，使得专家系统的轨迹输出尽可能的逼近人类驾驶轨迹。

轨迹优化专家系统的另一种模型是Inverse Reinforcement Learning技术，通过历史驾驶轨迹训练模型参数，使得它的输出尽可能的逼近预期效果。

如下图所示，红色的主车，蓝色的是社会车辆。左图的社会车辆更加保守，右侧的社会车辆更加激进。用保守的轨迹训练出的模型表现就趋于保守，用激进的轨迹训练出的模型表现就趋于激进。

6、Smart Agent对于自动驾驶规模化不可或缺

不管是专家系统，还是神经网络，它们都在努力模拟人的驾驶行为，使Agent变得聪明起来，聪明的Agent可以辅助自动驾驶技术快速规模化。

Screenshot from 2020-02-12 08-15-03.png

人工智能深度学习自动驾驶机器人

阅读 6.1k发布于 2020-02-12

自动驾驶加油站

7 声望15 粉丝

专注于全栈自动驾驶技术学习分享，期望与更多志同道合的同学一起开拓人类认知的新边界！

« 上一篇

下一篇 »

自动驾驶定位算法-直方图滤波定位

引用和评论

被 7 篇内容引用

推荐阅读

自动驾驶硬件系统-激光雷达(Lidar)测量模型

自动驾驶加油站阅读 3.5k

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 6阅读 2k

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

拓端tecdat阅读 33.3k

AI Agent爆火后，MCP协议为什么如此重要！

程序员海军赞 5阅读 718

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 5.6k

MCP 协议为何不如你想象的安全？从技术专家视角解读

Baihai_IDP赞 2阅读 648

🔥吐血整理 Bolt.diy 部署与应用攻略

北京宏哥阅读 6.2k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。