当特斯拉还在FSD的端到端架构中迭代优化时,中国造车新势力已悄然开启了智能驾驶的范式革命。在NVIDIA GTC 2025的聚光灯下,理想汽车自动驾驶技术负责人贾鹏展示的MindVLA架构,不仅突破了传统驾驶的技术框架,更在人工智能与自动驾驶物理智能体的融合探索中树立了新的行业标杆。


那么,这个重新定义自动驾驶的MindVLA架构究竟是什么?贾鹏解释道:“MindVLA是一个机器人大模型,它成功整合了空间智能、语言智能和行为智能。一旦跑通物理世界和数字世界结合的范式,它将有望赋能更多行业。同时,MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机,它能听得懂、看得见、找得到。我们希望MindVLA能为汽车赋予类似人类的认知和适应能力,将其转变为能够思考的智能体。”


MindVLA打破自动驾驶技术框架设计的传统模式,使用能够承载丰富语义,且具备出色多粒度、多尺度3D几何表达能力的3D高斯(3D Gaussian)这一优良的中间表征,充分利用海量数据进行自监督训练,极大提升了下游任务性能。

理想从0开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。基座模型训练过程中,理想加入大量3D数据,使模型具备3D空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

LLM基座模型获得3D空间智能的同时,还需要进一步提升逻辑推理能力。理想训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。至此,MindVLA实现了模型参数规模与实时推理性能之间的平衡。


MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时,MindVLA采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。值得一提的是,相较于特斯拉纯视觉方案对数据量的重度依赖,MindVLA通过重建+生成的云端世界模型,构建出虚实交融的训练环境,使得系统能够实现"从错误中学习"的强化闭环。这种技术路径的差异,本质上是将智能驾驶从"数据驱动"升级为"认知驱动",显著提升了场景重建与生成的质量和效率。

在用户感知层面,MindVLA带来的不仅是技术参数的提升,更是人车交互范式的重构,它就是你“听得懂”、“看得见”、“找得到”的专职司机。当车辆能够理解“带我去找超市”、"开太快了"等语义指令;能通认识星巴克、肯德基等不同的商店招牌并通过照片定位自主寻人;甚至在没有地图支持的情况下完成空间推理……它就不再只是一个驾驶工具,而是一个能与用户沟通、理解用户意图的智能体,这种转变将重新定义智能驾驶的竞争维度。


相关行业人士指出,MindVLA展现出的跨场景适应能力,可能打开智能驾驶的商业化新蓝海。其在各个场景的突破,实质上是将L4级技术的应用场景从限定区域向泛化场景延伸,就像iPhone 4重新定义了手机,MindVLA也将重新定义自动驾驶,为行业探索出一条兼顾性能与效率的可行路径。

这场由理想汽车引领的技术变革,正在重构智能驾驶的价值坐标系。当车辆开始具备空间推理、语义理解和自主决策能力,我们或将见证一个新时代的开启:汽车不再是被动的交通工具,而是能理解、会思考、懂适应的智能体。这种转变不仅关乎技术突破,更预示着人车关系的根本性重构——在MindVLA架构的驱动下,汽车正在成为人类在物理世界中最具智慧的"数字伴侣"。

ad1 webp
ad2 webp
ad1 webp
ad2 webp