2025年6月11日,元戎启行CEO周光受邀出席2025年火山引擎Force原动力大会,宣布元戎启行将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,打造物理世界的Agent。同时,周光宣布元戎启行的VLA模型将于2025年第三季度推向消费者市场,并展示了VLA模型的四大功能——空间语义理解、异形障碍物识别、文字类引导牌理解、语音控车,功能将随量产逐步释放。
元戎启行CEO周光
周光:“VLA的四大核心功能,相当于为AI汽车增加‘透视眼’‘百事通’‘翻译官’‘应答灵’等属性,让AI汽车更全面地了解驾驶环境,准确预测潜在驾驶危险因素,显著提升辅助驾驶的安全性。”
空间语义理解:驾驶“透视眼”
VLA模型能够全维度解构驾驶环境,精准破解桥洞通行、公交车遮挡视野等动静态驾驶盲区场景驾驶风险。
例如,在通过无红绿灯的路口时,VLA模型能提前识别到“注意横穿,减速慢行”的指示牌,即使公交车通行造成动态盲区,VLA也会结合公交车的动作去做出准确的决策。当公交车进行减速时,它会通过推理前方可能有行人穿行,并做出“立即减速、注意风险、谨慎通行”的决策。
公交车动态盲区遮挡 公交车动态盲区遮挡
异形障碍物识别:驾驶“百事通”
vla模型是一个超级学霸,它通过互联网迅速获取知识并转换成自己的经验,有自己的驾驶“知识库”,对驾驶过程中出现的各类障碍物了如指掌,准确判断潜在危险因素,行驶更安全。例如,VLA模型能够识别“变形”的超载小货车,结合实际路况,执行减速绕行或靠边驾驶。
异形障碍物识别
文字引导牌理解:驾驶“翻译官”
搭载VLA模型的AI 汽车不仅能 “看见” 道路标识,更能 “读懂” 文字背后的通行规则,解析复杂路况里蕴含的路况信息,让复杂路况决策如 “开卷考试” 般从容。面对左转待行区、可变车道、潮汐车道等 “动态规则路段”,VLA模型能够读懂字符与图标的含义,高效匹配实时路况。在多车道复杂路口选道直行的场景中,能够准确识别车辆前方的文字及图案标识牌,从左转右转混杂的路口准确找到左转车道,并执行操作。
特殊路标识别
语音交互控车:驾驶“应答灵”
通过VLA模型,AI汽车可以与用户高效交流,根据语音指令做出对应的驾驶决策,随叫随应,交互更拟人,体验更舒适。并且当用户意愿与导航信息相冲突时,VLA模型会优先采纳用户意愿。
语音控车指令
目前,元戎启行已完成VLA模型的真实道路测试,预计今年将有超5款搭载元戎启行VLA模型的AI汽车陆续推入市场。其中,VLA模型支持激光雷达方案与纯视觉方案,将率先搭载在NVIDIA Drive Thor芯片上,后续元戎启行还将通过技术优化,让VLA模型可以适配更多芯片平台。
火山引擎汽车总经理、智慧出行和具身研究院院长杨立伟表示:“元戎启行作为业内率先推出VLA模型的企业之一,对人工智能的理解极为深刻。火山引擎作为行业领先的云服务提供商,在云计算领域拥有深厚的技术实力和丰富的经验。我们非常期待与元戎启行携手合作,共同推动基于豆包大模型的物理世界Agent的落地应用,助力智慧出行领域的创新发展。”
周光强调:“VLA模型作为当下最先进的AI技术,可以连接视觉、语言、动作等多种模态,打通物理世界与数字世界的壁垒,具有完善的任务规划和执行能力,是实现物理世界 agent 的关键技术。元戎启行很高兴能够与火山引擎达成合作,基于VLA模型共同打造物理世界的Agent,让双方的先进技术在物理世界的各个领域落地,推动生产力进阶。”
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。