AI正在成为车企竞争的新战场。
CVPR 2025放榜,智能车参考最新获悉,其中理想汽车中稿了4篇。
CVPR(Computer Vision and Pattern Recognition)是计算机视觉领域的顶级学术会议,今年竞争较之以往更加激烈。
据了解,此次共有13008篇工作进入了评审流程,最终只录用了2878篇。
录用率仅为22.1%,相比2024年再度下降了1.5个百分点。
在这样的条件下,一家车企竟然杀出重围,也难怪DeepSeek经过深度思考后,会做出这样的评价:
中稿的4篇工作,主要是自动驾驶模拟仿真方面的创新:
- StreetCrafter:利用车载传感器收集数据,生成高保真街景视图
- DriveDreamer4D:利用世界模型合成新视频片段,补充现实数据集
- ReconDreamer:修复场景生成时大幅度动作导致的“伪影”问题
- DrivingSphere:搭建多智能体场景,训练自动驾驶算法
StreetCrafter
首先是StreetCrafter,由理想、浙江大学和康奈尔大学合作,提出了一种利用车载传感器采集的数据,生成高保真街景视图的方法。
具体来说,StreetCrafter输入激光雷达点云数据和校准图像后,先将相邻帧的激光雷达点云聚合为全局点云,然后在给定相机姿态下,将其渲染为彩色图像。
这些渲染而成的彩色图像,会在模型生成新的视频帧时,作为限制条件,来确保生成视频帧的几何一致性,精确控制相机姿态。
同时,得益于激光雷达点云提供了精确的几何信息,当调整输入模型的相机姿态时,模型能够生成与输入新姿态一致的新视图。
即便相机姿态偏离了原有的训练轨迹,依然能够生成高质量的视图,解决了以往工作的一大痛点。
值得一提的是,StreetCrafter生成的场景还支持自定义,可以对图像中的对象进行平移、替换和移除。
这项工作在Waymo Open Dataset和PandaSet进行了实验对比,超越了过去的传统方法。
DriveDreamer4D
然后是DriveDreamer4D,整合了世界模型的先验知识,生成新的车辆行驶轨迹视频数据,用来补充现实世界的驾驶数据集。
相比NeRF和3D高斯散射(3DGS)等方式,DriveDreamer4D能处理更多样化的复杂场景,比如变道、加速和减速,提升4D场景的生成质量和时空一致性。
核心工作有两项,新轨迹生成模块NTGM和数据训练策略CDTS。
其中,NTGM(Novel Trajectory Generation Module)提供两种输入方式生成新的行驶轨迹。
一种是文本描述(Text-to-trajectory),通过文本自动生成包括变道、加速或减速等操作下的轨迹。
一种是自定义设计(Custom-designed),根据特定需求,手动定制设计行驶路径。
输出行驶轨迹后,NTGM还会负责对齐,将轨迹输入仿真环境比如CARLA,模拟车辆运动并检测碰撞风险,以及使用预测模型,评估与其他车辆的交互是否安全。
最后,在世界模型的驱动下,检查合格的安全轨迹会转换为刹车、转向和踩油门等控制信号,结合环境状态信息,比如车辆位置、光照等,生成行车视频。
CDTS(Cousin Data Training Strategy)则与NTGM的工作相辅相成。
NTGM生成的轨迹和视频会被“打包”成合成数据集,然后CDTS引入正则化损失确保合成的数据集与真实数据的感知一致性。
其中存在的误差会反馈给NTGM,促进其轨迹生成策略迭代。
DriveDreamer4D的评估基准比较多样,包括数据集的对比测试和用户调研等形式。
在与PVG、S^3Gaussian、以及Deformable-GS对比后,DriveDreamer4D的时空一致性和真实性均有所提升。
此外,作者还让用户比较不同方法生成的驾驶视频,场景包括变道和加减速,视频左右对照,随机分配,让用户选出其中最优的结果,评价汇总如下:
DriveDreamer4D能够处理常规场景,但是应对更复杂的变化有点力不从心,比如跨多车道变道时,一跨跨6米,类似这种大幅度动作,重建起来会出问题。
因此,极佳、北大、中科院自动化所和理想等单位联合,推出了适用于“大动作”场景的方法。
ReconDreamer
重建动态驾驶场景时,较大幅度的动作会引起场景出现扭曲、模糊和细节丢失等问题,称作“伪影”,具体表现为远方小树扭曲和前景车辆部分遮挡等。
针对这一类问题,ReconDreamer依然是利用世界模型的知识,通过在线修复(DriveRestore)和渐进数据更新策略( Progressive Data Update Strategy以下简称PDUS)两大手段,解决复杂动作的渲染质量问题。
第一步,构建一个修复数据集。
首先用开放数据集中的特定片段,做一个原始轨迹数据集,训练出一个动态场景重建模型。
由于该模型仅适配了原始轨迹,因此当其去渲染新生成的轨迹时,即便轨迹跨度比较小,假设为1.5米,仍然会出现带有“伪影”的“残次视频”。
然后拿着这些渲染出的“残次视频”,与其对应的正常视频片段逐帧比对,找出有问题的“退化帧”,一一对应形成这样的修复数据集{(正常帧1,退化帧1),(正常帧2,退化帧2),(正常帧i,退化帧i)…}。
第二步,用修复数据集训练DriveRestorer。
将修复数据集和结构条件比如3D box序列或者高精地图,输入DriveRestorer训练,目标是让模型学会修复“伪影”,修复过程有点像扩散模型中的去噪。
在一过程中引入了脱敏策略,重点针对问题严重区域的“伪影”,比如远景和天空,更有效地修复这些区域的“伪影”提升渲染质量。
通过最小化正常帧和退化帧之间的损失,优化DriveStorer的参数。
当DriveStore完成微调后,模型已经初步学会怎么修复视频了。
第三步,将早前的“残次视频”和结构条件输入模型中,输出修复后的高质量视频。
再将修复后的视频放入原始数据集,实现数据集扩大。
接下来,在数据集中生成更大跨度的轨迹,比如第一轮是1.5米,接下来可以是3米,然后6米,重复上述步骤,渐进更新数据,让模型适应更复杂的机动场景,直至模型收敛。
这是因为引入了渐进数据更新策略,因此DriveRestorer在处理大幅度机动动作时,相较之前的DriveDreamer4D有更好的表现。
DrivingSphere
最后,是自动驾驶系统的验证问题。
DrivingSphere,一种生成式闭环仿真框架,构建了一个多智能体环境,智能体主要有两类:
- 主智能体:被测试的自动驾驶系统
- 环境智能体:各种交通参与者
框架主要通过两大模块和一个机制,为智能体构建了高保真4D世界,评估自动驾驶算法。
两大模块,包括构建动态环境的DEC模块(Dynamic Environment Composition module),以及合成视觉场景的VSS模块Visual Scene Synthesis module)。
首先,DEC将BEV图像和文本描述输入到模型OccDreamer中。
OccDreamer是基于占用网络的扩散模型,利用扩散模型迭代去噪,逐步生成高保真的静态场景,并且支持城市场景的无缝扩展。
然后,DEC会根据语义相似性或者随机从“演员库”(Actor Bank)中选择车辆和行人,作为动态的交通参与者,也就是环境智能体,与主智能体交互。
每个环境智能体具有唯一的ID和时空位置,根据控制信号动态更新,反映其在不同时间帧下的位置变化。
最后,DEC会将静态的背景、动态的参与者以及他们的位置,整合为一个完整的4D世界,相比传统方式还原细节更丰富,场景更真实。
DEC的任务到此基本完成,VSS接力将生成的4D世界转换为多视角下的高保真视频,用于自动驾驶感知:
核心是视频扩散模型VideoDreamer。
首先,VideoDreamer采用双路径条件编码策略,在全局分支下,使用预训练的4D编码器从4D世界中提取出几何信息和时空关系,获取全局特征,确保静态场景的整体结构和动态元素的位置和交互关系正确。
然后还有局部映射分支,该分支负责生成特定视角的语义图,在像素级别上实现对齐,捕捉遮挡关系和深度变化。
这种策略解决的是时空一致性的问题,确保视觉一致性,VSS还有一套ID识别演员编码机制。
前面提到,每个环境智能体都具有唯一的ID号码,该机制将参与者的ID、语义描述和位置信息进行傅里叶编码,将参与者的外观和ID和场景中的位置绑定起来。
这样,VSS能够在不同视角和时间帧下,确保参与者外观的一致性,从而实现时空上的视觉一致性。
为了进一步提升生成视频的流畅度和精度,模块最后还集成了ST-DiT(Spatial-Temporal Diffusion Transformer),
ST-DiT来自Open Sora,采用了时空自注意力机制、视图感知空间自注意力、交叉注意力机制、自回归生成策略和控制网络分支等技术,确保生成无伪影的帧序列。
在两大模块背后,还有一套闭环反馈机制。
前面提到,DEC模块中的智能体的控制信号,就是这套格局视觉输入信号生成的,用来改变环境智能体的状态。
智能体的信号动态改变了环境,环境的变化又生成视觉输入反馈给智能体,这样智能体就能在一个动态的交互环境中测试验证。
DrivingSphere在nuScenes数据集上的对比结果如下:
一家车企在AI顶会同时中稿4篇工作,理想为什么能在2024年智驾飞升,恍然大明白了。
然而,自动驾驶只是理想AI转型的冰山一角。
理想AI赛道的隐秘布局
所有人都感知到了,理想正在All in AI:
组织架构上,李想本人重心转移,交棒整车产销供决策权,All in AI。
AI应用层,智驾模型迅速升级,VLA模型蓄势待发,1000万Clips版本推送。
李想自信迎战FSD:
欢迎和理想在全国任何地方一起对比。
细扒过年一年理想参与的AI论文,会发现更隐秘、更全面的布局。
既有Drive VLM这种引领智驾新范式的自动驾驶理论成果:
也有文本生成3D图像,AI虚拟人物一键换装等其他领域的工作:
还有AI的交叉学科应用:
这些成果主要集中在2024年下半年,有基础模型,有落地应用,还有其他行业的能力延伸。
这意味着,理想汽车正在从车企转向AI企业。
全民智驾的这一年,AI普及加速上车,车企正在从看得见的销量竞争,转向更隐秘的AI技术竞争。
论文&对应项目地址:
DriveDreamer4D
https://arxiv.org/abs/2410.13...
https://drivedreamer4d.github.io
ReconDreamer
https://arxiv.org/abs/2411.19548
https://recondreamer.github.io
DrivingSphere
https://arxiv.org/abs/2411.11252
https://yanty123.github.io/Dr...
StreetCrafter
https://arxiv.org/abs/2412.13188
https://zju3dv.github.io/street\_crafter/
理想开源项目地址:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。