在去年的GTC大会上,理想介绍了「快+慢」双系统。到了今年,则推出了全新的VLA方案(视觉语言行为大模型)————MindVLA。

昨日(3月18日),在MindVLA发布其Demo车型可实现的效果后,理想汽车的股价一度飙高。同时,理想汽车自动驾驶技术研发负责人——贾鹏,也在GTC演讲中详细介绍了MindVLA的研发背景、挑战以及背后的工作。

双系统迭代显现的问题

从理想去年的「快+慢」双系统模式来看,「快系统」车端端到端大模型实现了从传感器的输入,直接到轨迹的输出,类似于人类的直觉反应;而「慢系统」则依托于一个22亿参数规模的视觉语言大模型VLM,它通过思维链CoT进行复杂的逻辑分析,给出驾驶决策。

这两套系统,分别跑在一颗OrinX芯片上,采用了数据驱动的范式。

为提高其测试效率,降低测试成本,理想在云端构建了一个世界模型。它提供了3D的交互环境,使得双系统可以在此环境中进行闭环仿真测试。

以上三个模型就构成了理想自动驾驶的整个体系,简洁而高效。

在这一过程中,理想发现,双系统同样在遵循Scaling law——随着训练数据的增加,模型在实际驾驶场景中的表现逐步提升。到今年年初,1,000万clips训出来的模型,已可实现了超过100公里的MPI。



但是,在端到端+VLM的量产过程中,理想也发现了一些需要改进的地方:

1、由于它们是两个独立模型,而且运行于不同的频率,整体的联合训练和优化非常困难。

2、VLM大语言模型使用了海量的互联网2D图文数据做预训练,但是在3D空间理解和驾驶知识方面是有所不足的,上限还不是很高。

3、当前的自动驾驶芯片,其内存带宽和算力是不及服务器GPU的,如何进一步提升模型的参数量和能力,同时还能实现高效推理,这是个巨大的挑战。

4、目前,驾驶行为的学习更依赖于Tranformer进行回归建模,但这种方法难以处理人类驾驶行为的多模态性——在相同的场景下,不同人的选择是不同的,即使是同一个驾驶员不同心情的时候,驾驶行为也是不同的。

在此背景下,理想考虑将端到端+VLM合二为一,让模型自己学会快慢思考,同时赋予模型3D空间理解能力和行为生成能力,进一步打开天花板。



MindVLA概述

基于上述思考,理想提出了自己的VLA模型——MindVLA。

VLA是视觉语言行为大模型,它将空间智能、语言智能和行为智能统一在一个模型里,它赋予自动驾驶系统感知、思考和适应环境的能力。

MindVLA不是简单地将端到端模型和VLM模型结合在一起,而是将所有的模块进行重新设计。

首先,3D空间编码器通过语言模型和逻辑推理,结合在一起后,给出合理的驾驶决策,并输出一组Action token,最终通过Diffusion进一步优化出最佳的驾驶轨迹。

这里所谓的Action token,是对周围环境和自车驾驶行为的编码。整个模型推理过程都发生在车端,而且要做到实时运行。

6个关键技术

为了解决技术部署的难点,理想需要从0开始设计和训练一个适合VLA的基座模型,因为任何开源的LLM模型都还不具备这样的能力。

贾鹏介绍称,理想的MindVLA具备以下6大关键技术:

一、3D高斯表征

在研发世界模型时,理想发现3D高斯是一个优良的中间表征——它不仅具备出色的多尺度3D几何表达能力,也可以承载丰富的语义。最为关键的是,它可以通过图片RGB进行自监督训练,这就有机会去充分利用海量的真实数据,获得一个优秀的3D表征。

“我们的研究成果显示,采用自监督训练得到的高斯表征,能够极大地促进下游任务的性能提升。”



二、LLM的3D空间理解能力

LLM可以兼容视觉语言的多种模态,但如果想要它同时具备3D的空间理解能力,需要在模型的预训练阶段就要加入大量的相关数据。

为了进一步激发模型的3D空间理解和推理能力,理想加入了未来帧的预测生成,以及稠密深度的预测等训练任务。

三、模型设计:稀疏化

当下的车载芯片,例如Orin-X和Thor-U的算力和内存带宽都还有限,如何设计模型架构,让模型参数进一步提升,还能在有限的资源下实施实现实时推理。

在这个过程中,稀疏化是模型设计的关键,它可以实现模型容量扩容的同时,不会大幅度增加推理负担。

理想通过两个维度来实现稀疏化——首先采用了MoE的架构,不仅可实现模型扩容,还可保证激活参量不会大幅度增加。另外,理想还引入了Sparse Attention等方式,进一步提升稀疏化率,提升端侧的推理效率。“在这个新的基座模型训练过程中,我们花了很多时间去找到最佳的数据配比。”



四、LLM的逻辑推理能力

为了训练LLM的逻辑推理能力,理想训练模型去学习人类的思考过程,并自主切换快思考和慢思考。

在慢思考模式下,模型会经过思维链CoT再输出Action token。因为实时性的要求,理想使用了固定且简短的CoT模板;如此,在快思考模式下,模型不需要经过CoT就可以直接输出Action token,这也是我们将快慢思考有机结合在同一个模型中的体现。

五、用车端芯片实时推理

即便有了上述的结构设计和优化,要想实现VLA超过10 Hz的推理速度,还是具有挑战的。理想做了大量的工程工作,去压榨Orin-X和Thor-U的性能,同时最大利用NVIDIA Drive AGX的性能。例如,针对CoT过程,理想采用了小词表和投机推理,大幅提升CoT的效率。

针对Action token的推理,理想采用了创新性的并行解码方法,也就是在同一个Transformer模型中,加入了两种推理模式,语言逻辑的推理,通过因果注意力机制逐字输出,而Action token则采用双向注意力机制一次性全部输出。



六、利用Diffusion执行复杂指令

经过上述一系列的设计和优化,理想终于实现了模型的参数规模与实时推理性能之间的平衡,并利用Diffusion将Action token解码成最终的驾驶轨迹。

贾鹏表示,VLA的强大之处,在于用户可以直接与模型对话,模型会根据语音指令自动拆解并执行任务。基于Diffusion模型,不仅可以生成自车轨迹,还预测其他车辆和行人的轨迹,大大提升了标准模型在复杂交通环境中的博弈能力。

此外,Diffusion还有一个巨大优势,就是可根据外部的条件输入改变生成结果,这在图像生成领域被称为多风格生成。有了这样的特性,一些自然、随机的复杂指令就能得以被理解和执行。

然而,Diffusion模型有一个显著的挑战——其生成效率极低,需要很多步才能成功生成稳定的轨迹。为了解决这一问题,理想采用了基于常微分方程的ODE采样器,大幅加速了Diffusion生成过程,使其在2-3步内就可以生成稳定的轨迹。

「对齐人类水平」还不够好

贾鹏称,VLA模型在绝大多数场景下能够接近人类的水平,然而在某些长尾工况下,VLA仍存在不符合人类价值观的问题。

为解决这一问题,理想增加了后训练的阶段,希望能够既对齐人类驾驶员的行为。

“理想建立了一个人类偏好的数据集,应用RLHF去微调模型的采样过程,使模型能够从这些偏好数据中学习和对其人类行为。这一创新性的步骤,让我们在模型性能上取得了进一步的提升。”

随着偏好数据的逐步丰富,模型的表现逐步接近了专业司机的水平,安全下限也得到了提升。



但他也指出,要实现自动驾驶,就必须超越人类司机水准。这其中有两个主要的限制因素:

第一,早期的车端架构未能实现端到端的可训,强化学习作为一种稀疏的弱监督过程,若无法实现高效的无损的信息传递,强化学习的效果就会大打折扣。

第二,Physical AI 需要与真实世界进行交互,然而过去的尝试都是基于3D的游戏引擎,场景真实度不足,

目前,理想已经获得了一个端到端可训的VLA模型,解决了第一个限制。

至于第二个问题,理想的做法是结合场景重建与生成:“纯生成模型可能会出现不符合物理规律的幻觉,而纯重建模型在大视角变换下,又可能出现空洞和变形。因此我们选择以真实数据的3D重建为基础,同时特意在不同的视角下添加噪音来训练生成模型,恢复这些模糊的视角。”

贾鹏表示,这样一来,生成模型就具备了多视角的生成能力,在与3D重建联合优化后,可以获得一个各个视角下都接近真实世界的3D环境,这在很大程度上解决了第二个限制。



“突破这两个限制之后,我们终于有机会尝试大规模的自动驾驶强化学习,但规模化需要解决效率的问题,不然无论重建和生成效率都不高。”

在此背景下,理想与英伟达团队密切合作,进行了大量的工程优化,显著提升了场景生成和重建的效率。其中一项工作是将3DGS的训练速度提高了7倍以上。

”总体来看,MindVLA整合了空间智能、语言智能和行为智能,可以说是一个巨大突破。并且,通过创新性的预训练和后训练方法,我们发现VLA实现了卓越的泛化性能和涌现特性,它不仅在驾驶场景下表现良好,在室内环境中也展示出了一定的适应性和延展性,这是Physica AI能够大规模落地的关键,一旦跑通这套范式,理想将有望为更多行业赋能。“贾鹏说道。

场景体验效果展示

“有MindVLA赋能的车不再只是一个驾驶工具,而是一个能够与用户沟通理解用户意图的司机。”对此,贾鹏展示了三个实车Demo经历的场景:

1、听得懂:在一个陌生园区想找星巴克,但不知道具体的位置,只需对车辆说出 “带我去星巴克”,车辆将在没有导航信息的情况下,通过自主漫游找到目的地。在此过程中,可以随时用语音进行人工干预。

2、看得见:在一个陌生的城市,不知道如何描述自己的位置,只需要拍一张附近环境的照片发给汽车,让车子自己来找你。

3、找得到:当你驾车来到商场地库找车位,只需要在超市门口下车,然后对车说“自己去找个车位停好”,MindVLA能够理解你的指令,并利用它的空间推理能力自主寻找停车位,即使遇到了死胡同,他也会自如地倒车,然后重新寻找合适的车位停下。

整个过程中,无需依赖地图或导航信息,只依赖于VLA强大的空间和逻辑推理能力。



“我们希望MindVLA能为自动驾驶车辆赋予类似人类的认知和适应能力,将它转变为能够思考的智能体,就像iPhone重新定义了手机,MindVLA也将重新定义自动驾驶。”



ad1 webp
ad2 webp
ad1 webp
ad2 webp