自动驾驶行业被引爆的同时,楼教主的好消息将近。
在纳斯达克完成递交招股书后,小马智行敲钟进入倒计时。
一支天才云集的队伍,创业8年,在自动驾驶领域打造出一家明星独角兽,靠的还是扎实的业务能力和领先的技术。
而小马智行的招股书,实际上也对自动驾驶技术做了一次完整又详实的科普。
根据招股书,小马智行的自动驾驶系统,可以拆解为几部分,下面来逐一了解。
传感器
自动驾驶汽车,想像人类司机一样行驶,就需要像人类司机一样,清楚地感知到路况,这就涉及到传感器:
- 激光雷达
激光雷达,顾名思义,是使用激光束探测汽车周围的物体,在各种光照条件下,可以实现高分辨的距离感应。
多个位置部署激光雷达,可以在各种环境和光照条件下,观测到汽车、行人、交通信号灯等等,实时生成周围环境的三维图像。
- 摄像头
多个高精度的摄像头,可以让车辆更全面、全方位地观察周围环境,没有重大盲点,能从中分辨、识别出障碍物,也能让交通状况的图景范围也更广泛。
- 雷达
雷达是通过发射无线电波的方式,实现车辆的距离与速度探测,在雨、雪、雾等恶劣天气时,相比起激光雷达和摄像头,毫米级雷达表现更出色。
小马最新第六代自动驾驶汽车模型中,采用的就是以上三种结合的多传感器方法,配备了7 个激光雷达、11 个高分辨率摄像头和 3 个远程雷达,三种传感器优劣势互补,可以更有效观测到环境。
但传感器组件中,有单一传感器出现故障该怎么办?
在这个时候,除了感知环境,汽车的准确定位也是重要数据,所以小马还采用了GNSS 天线模组、IMU惯性测量单元等设备。
- GNSS / IMU
高精度全球导航卫星系统 (GNSS) ,和惯性测量单元 (IMU),是和高清地图和定位模块协同工作的,可以确定汽车的准确定位。
端到端技术的软件堆栈
在招股书中,小马智行特别强调了自己的自动驾驶技术栈整体可以看成一个“大脑”,通过一整套软件模块和算法来控制车辆,这个大脑或者说AI司机,本身不受车辆平台种类限制,集成各种传感器类型和算法模块。
小马还着重强调端到端的可解释性,所以采用分段式模式,仍然包含感知、预测、规控、模拟等等模块,下面来一一详解:
- 端到端驱动闭环演进
首先来看小马的端到端模型,通过融合可学习度量空间,模拟车辆在真实世界的行为,并且通过智能标记和特征提炼技术,把LLM的知识库迁移到端到端模型中,扩充原本有限的资源,方便系统处理复杂的驾驶条件。
而没做标记的数据,会通过自监督解释模型,继续训练世界模型和端到端模型,解释端到端的推理结果,包括感知结果、预测结果、做出的具体决策和详细的场景描述等等。
这种全面的可解释性,可以更深入地了解自主系统的功能和决策过程。
在这个过程中,为了保障适应性和准确性,小马智行加入了可学习优化模型,集成基于模型方法和优化方法,既具备数据驱动的特性,也保留了可控性。
另外,想要真正实现L4级的系统,只有当前和过去的数据预测未来是不够的,真正的挑战,还是在于如何与现实世界的频率相匹配,模拟长尾场景和行为,以实现开发的不断迭代。
因此,需要创建一个高保真的环境,方便模拟现实场景。这就是小马的闭环模拟引擎,PonyWorld。
PonyWorld在视觉细节和动态响应方面,精确复制了真实世界条件,这可以让系统突破功能的界限,模拟关键场景,比如突然出现的孩子、未盖的沙井,或前方车辆掉落的碎片等等。
这个系统会使用过去事件的记录和既定的未来事实,对各种未来场景进行合理的推断。
当自动驾驶汽车的未来行动与这些记录一致时,真值条件生成模型会如实反映记录中的未来;相反,当未来行动偏离记录时,模型会重建与记录不同的关键行为特征,以便保持可信度。
- 感知与预测
车辆自动驾驶的过程,需要“虚拟驾驶员”能够“看到”汽车周边的环境,并且及时做出反应,这就需要具备感知和预测能力。
小马智行的感知和预测模块,采用的都是多模态、多任务和快速调整的大型Transformer框架。
在感知方面,采用的是快速学习技术,集成点云、图像和电磁响应等各种模态的输入,可以基于单一模型,准确检测各种不同类型的物体,并且大幅降低延迟。
通过处理传感器组件收集的数据,感知模块自动完成物体的分割、检测、分类、跟踪,以及场景的理解。
出现极端、恶劣天气,肉眼难以看清时,这种能力让自动驾驶车辆在行驶过程中,依然能无障碍感知环境,因此会比人类驾驶员表现得更好。
为了进一步提升感知模块的性能,感知模块中加入了深度学习技术处理数据,并且利用启发式方法,也就是人类知识和常识,在决策层添加确定性数学公式和规则,以此弥补深度学习技术中,模拟与现实之间的差距。
在预测方面,预测模块采用多模态深度学习模型,融合了感知观察和人类常识的信息。
这些常识,是从交通规则和人为设计的提示中提取,以知识图谱的形式表示,而Transformer结构,会捕获不同模态之间的相关性。
根据一系列数据,预测模块会给出判断。这些数据同样围绕传感器数据展开,又结合了感知模块的输出数据,以及类似道路代理的历史决策经验。
考虑到可能出现意外情况,在记录常规数据以外,数据集还针对每种情况,给预测模块添加了额外的可学习和针对性提示。
预测模块和感知模块类似,也采用了深度学习和启发式方法,为每个观测到的道路代理提供一条预测轨迹,并且会计算出发生的概率,为其他模块的工作提供参考。
- 规划与控制
成功感知并预测数据之后,就要根据输入的数据,进行规划和执行操作了。
关于规划和控制模块,小马是靠AI来创建的,这里面涉及到博弈论的方法。
在模拟和分析 车辆与其他道路主体间的相互作用时,举个例子,如果自动驾驶汽车和有人驾驶汽车同时接近十字路口,博弈论会帮助自动驾驶车辆,选择最佳路线、平稳加减速,或者适当变道,确定一个最佳的行动决策,很适用于高峰时段、拥堵道路的场景。
同时,为了让驾驶行为和人类更接近,决策器中使用了强化学习人类反馈 (RLHF) 的调整机制。
利用人类贴标员,获取在各种情况下,有关自动驾驶系统的安全性、舒适性和效率的反馈,这些反馈会用于训练奖励函数,让这个函数在更大的数据集上调整深度学习决策。
硬件以及整车集成
了解完软件,接下来就是自动驾驶的汽车硬件,以及如何把每一部分整合在一起了。
- 计算系统
从传感器收集到的数据,是由计算系统处理,通过算法实时运行来实现自动驾驶的。而车载计算单元,就负责处理传感器收集的数据。
小马智行的自动驾驶计算单元(ADCU),运用的是异构计算架构,包括中央处理单元(CPU)、图像处理单元(GPU),现场可编程门阵列(FPGA)和微控制器单元(MCU),是一个完全汽车级的计算平台,可以方便定义完全适配自动驾驶应用的计算架构。
利用ADCU计算平台,小马可以通过微调,保持性能和资源的消耗平衡。如果出现新技术,ADCU也可以更轻松地进行调整和升级,具备很强的灵活性和可扩展性。
- 车辆集成
自动驾驶的最后一环,就是把每一部分系统,集成到车辆中。
小马智行的解决方案,是建立在汽车级硬件和软件工具链的基础之上,并加入了监管系统。
在自动驾驶软件堆栈和车辆平台之间,通过可靠的接口,实现车辆平台准确地接收并执行控制命令。
各个模块当中,车载系统提供了统一的应用程序交互接口(API),以便数据在整条传输路径上,能够保持稳定和顺畅。同时,车载监控系统,也能及时发现各模块中可能出现的故障。
还有最重要,也是最后的一重保障,就是安全冗余。
在小马的汽车模型中,冗余平台是通过冗余传感器、计算系统、电源以及执行器来保障安全的,这样可以避免出现单点故障的情况。
举个例子,在计算系统中,不同的处理器,会相互交叉检查,并充当彼此的备份系统,如果发生错误,GPU上运行的某些算法就会回退到CPU。
再举个例子,如果主电源系统发生故障,备用电源系统将无缝接合,确保计算系统的持续供电,保障车辆正常运行。
这个过程中,冗余有三层:正常运行模式、降级安全模式、最小风险条件模式。
降级模式和最小风险条件模式,是在物理上独立的冗余平台上运行,其中包括冗余传感器和计算。
如果在正常运行期间发生故障,平台就会检测到这些故障,并将系统转换为降级安全模式,让车辆行驶到安全位置。
如果发生降级安全模式也无法解决的严重故障,就会触发最小风险条件模式,让车辆至少可以在车道上停车,不会发生碰撞。
最后,作为这一切的载体——自动驾驶汽车,小马的选择是与主机厂合作,共同设计、测试汽车,并且一起建立集成的精简装配线。
目前小马智行推出的自动驾驶车辆,是和丰田合作开发的,更新到了第六代,2023年7月就开始部署面向公众的机器人出租车服务。
最新的进展是,第七代自动驾驶软硬件系统,已经进入了研发验证阶段,就在11月2日,小马智行和北汽新能源签约,第七代系统将搭载极狐阿尔法T5,2025年就会完成并推出首批极狐阿尔法T5的Robotaxi车型。
如今,自动驾驶行业玩家都在竞速,商业化落地,谁会是第一个呢?
招股书传送门:
https://www.sec.gov/Archives/...\_f1.htm#tRPT
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。