2025.03.26


本文字数:3898,阅读时长大约6分钟

作者 |新皮层NewNewThing 吴一凡

3月18日英伟达2025年GTC如期开幕。,如今的GTC不仅仅是AI圈的盛会,同时也会影响大半个中国智驾圈——除了特斯拉,目前所有高端智驾方案都依赖英伟达Orin芯片来提供算力支持。

在GTC智能驾驶分论坛上,理想汽车智驾研发负责人贾鹏、元戎启行CEO周光、小米汽车自动驾驶与机器人部负责人杨奎元、卓驭科技AI首席技术官陈晓智先后分享了自家在自动驾驶技术上方面的最新进展。

与前几年百花齐放的分享不同,今年各家的分享高度相似,「端到端」「VLA」「世界模型」这些关键词被反复提及,反映出目前智驾技术路线的逐渐趋同。自特斯拉首先落地端到端智驾方案以来,这一方案已成为自动驾驶行业的主流,理想、小米这些曾经的「落后生」在过去一年依靠该方案实现了跨越式的进步。


英伟达PPT展示了智驾方案的三次升级,从「常规道路」到「非常规道路」到「特殊场景」。

所谓「端到端」,指的是将整个自动驾驶流程整合到统一的神经网络中。早期,自动驾驶系统是模块化的,其感知、决策和控制等功能模块各自独立,导致信息在模块间传递时有延迟和丢失的问题。而将这些模块整合到一起,可以直接实现从传感器输入到车辆控制指令输出,提高了智驾系统的效率和实时性。

但端到端模型的问题在于,它是个「黑箱」,其决策过程难以被人类理解,出现问题时很难找到原因。另外,端到端模型的训练以监督学习为主,需要大量的标注数据,这些数据通常包括传感器输入(如摄像头图像、激光雷达点云等)和对应的驾驶行为(如转向角、油门、刹车等控制信号)。但一些罕见的场景,比如行人突然横穿马路、恶劣天气导致传感器故障等,在训练数据中占比极低,这让端到端模型往往很难应对这些非常危险的情况。

于是,如何解决端到端模型可解释性不足、长尾场景处理能力有限的问题,成为智驾企业当下重点投入的技术方向。

为端到端模型加buff

在今年GTC的智能驾驶分论坛上,「世界模型」被多次提及。

世界模型这一概念最早来自2018年NIPS(AI界三大顶会之一)上的一篇论文,论文作者、Google日本人工智能研究部门前负责人David Ha表示,它可以被类比为人类的心智模型(Mental Model,在头脑中构建的关于世界如何运作的简化模型),包括对世界的感知和理解(Vision,视觉编码)、针对当前状态预测未来状态(Memory,时序预测)、生成动作(Control,控制器)三个部分,是一个模拟人类思考方式的系统。

在智驾领域,世界模型擅长模拟和预测未来的驾驶环境,它可以与端到端模型结合,扮演「助手」的角色,为自动驾驶系统提供更全面的信息,用来解决端到端模型应对复杂和罕见场景时决策能力不足、缺乏可解释性的问题。

具体来说,世界模型通过整合传感器数据(如摄像头、雷达、激光雷达等)和高精度地图信息,实时构建出车辆周围的三维环境,然后预测交通信号的变化、其他交通参与者(如车辆、行人)的未来行为。基于上述预测,它能规划出安全、高效的行驶路径,并生成相应的驾驶指令(如加速、减速、变道、停车等)。例如,世界模型通过摄像头和雷达感知到前面的车突然减速,生成了一个未来几秒钟内的场景,显示前面的车继续减速并最终停下,它预测前面的车减速是因为看到了红灯,因此让车辆提前减速以确保安全。

此外,它的一个重要作用是生成各种复杂的驾驶场景视频,其中包括数据稀缺的长尾场景,用在自动驾驶算法的测试和验证方面。


以上自动驾驶场景是由英伟达的世界模型Cosmos生成的。

智驾供应商卓驭科技在大会上介绍了他们的端到端世界模型的最新进展。卓驭科技AI首席技术官陈晓智称,他们想要为用户提供个性化的智驾方案。传统的端到端模型更多是基于预测范式,即模型根据传感器输入预测下一步动作,只能输出单一轨迹,代表的是「平均人」的驾驶风格。为了让模型具备多种可能性的输出,卓驭选择用世界模型模拟可能发生的N个「平行宇宙」,这样就可以结合环境信息和用户的偏好,选择符合用户需求的驾驶轨迹。

理想汽车的智驾技术架构中也包含世界模型,理想汽车自动驾驶算法副总裁贾鹏在论坛上表示,他们在云端构建了一个世界模型,用于高效闭环仿真测试。另外一家造车新势力蔚来汽车在世界模型方面的押注更早。2024年7月,蔚来发布了其世界模型NWM(NIO World Model),并将世界模型称为「是智能驾驶技术在BEV(鸟瞰视图)&Transformer、占用网络OCC、端到端等技术后,又一次跨越式的进步」。

除了借助世界模型的模拟和预测能力,另外一个解决思路是引入语言模型的语言能力和推理能力。语言模型同样可以作为一个聪明的助手——读懂文字、看懂图片,并生成注释,给端到端模型提示。例如,语言模型在看到一个潮汐车道的标志时能够识别出是什么、理解它的含义,并推理出接下来应该怎么做。

这种「助手」叫作VLM(Vision-Language Model,视觉语言模型),在LLM的基础上它还能同时处理视觉信息。对VLM的研究可以追溯到2015年,后来这种模型架构多应用于视觉问答、场景文本理解、图像字幕生成等领域。而理想汽车首次把VLM应用到了自动驾驶领域,2024年,也是在GTC大会上,理想公布了端到端+VLM的方案——端到端模型负责开车,VLM帮忙指挥,并且还能解释这些动作的逻辑。

VLA:端到端智驾模型2.0?

在今年的GTC大会上,理想汽车又拿出了一个新模型MindVLA。MindVLA是一个VLA(Vision-Language-Action,视觉-语言-动作)模型,它在VLM的基础上增加了输出动作指令的能力,能够将视觉和语言信息转化为具体的行动,可以将其视作VLM的升级版。

要说明的是,VLA模型本身就是一个端到端模型,它起的不是「指挥」作用,它就是一个自己开车的「司机」。VLA兼具原来端到端智驾模型和VLM的能力,既能够根据摄像头、导航等输入信号直接生成车辆的控制指令,也引入了语言模型的思维链技术,具备对复杂场景的理解力。贾鹏称,「VLA是一个统一模型,V、L、A这三个stage需要联合训练」。

不过,VLA也不是新鲜事物,它最早由Google提出,起初是一个机器人领域的概念。2023年7月,Google DeepMind发布端到端的机器人控制模型RT-2,标志着VLA模型的诞生。

把机器人领域的端到端模型应用到自动驾驶领域,这么做的不止理想汽车一家。早在去年9月的2024全球智能汽车产业大会上,元戎启行CEO周光就公开表示,他们正在基于端到端模型和英伟达的Thor芯片研发VLA模型。

周光在本次大会上也分享了他对VLA模型的看法,他直接将VLA模型称为端到端模型2.0。他认为VLA模型的一个优势是和LLM范式兼容,这意味着VLA模型同样能够享受scaling law,可与人类驾驶偏好对齐、拥有CoT,等等。他提到,在自动驾驶领域,维持模型的长时序理解——让系统能够理解和预测未来较长时间内的交通情况——是非常困难的事情,而这和LLM的能力是高度相关的。

周光表示,VLA模型的挑战之一是在模型参数量变大后,保证实时响应的稳定性,快速响应需要达到毫秒级、百毫秒级。另外一个挑战是数据。他认为,现实世界中很多复杂微妙的临界态很难被模拟,元戎启行选择优先使用真实数据。「如果想要完整地模拟这个世界,需要花费的金钱可能大于在现实世界中采集的成本」,周光说。目前,元戎启行的端到端模型已经部署在了4万多辆车上,VLA模型预计今年年中部署。

同样参会的小米汽车在智驾领域的技术亮点则显得相对不足。小米汽车的专家工程师杨奎元主要介绍的是如何对物理世界建模,也就是构建智能驾驶系统的基础环节。他只在线上论坛的问答区提到「小米去年已经发布VLM功能,今年也在布局VLA,目前在研发阶段,进展顺利」。

智驾的下个竞争将集中在算力上

更复杂的模型自然需要更强大的算力来支撑。在GTC的演讲PPT中,周光透露了一组数据,称他们家的VLA模型在当前的英伟达智驾芯片上只能跑5FPS,在下一代智驾芯片上可以跑到20FPS。有汽车博主分析认为,前一个芯片指的是Orin-X,后一个芯片指的是Thor-U,它们的算力分别是256TOPS和700TOPS。


周光的PPT对比了VLA模型在两代英伟达智驾芯片上的运行效果。

在智驾领域,FPS指芯片每秒准确识别的图像帧数,它可以反映一块智驾芯片的真实计算性能。每秒识别的图像越多,芯片就可以更快处理数据发送指令,最终提高智驾操控性和安全性。当前英伟达的智驾芯片Orin只支持5FPS,是很难真正落地的。然而英伟达下一代智驾芯片Thor的交付日期不断延期,已经成为限制最新智驾方案顺利落地的瓶颈之一。

2022年秋天的GTC大会上,英伟达首次公布了下一代智驾芯片Thor,该芯片最高能提供2000TOPS的算力,几乎是Orin的8倍。这款芯片原计划于2024年年中实现量产,然而很快这个日期就更改为2025年年初,最新消息则显示量产时间再次延后,很可能要等到今年年中。在今年小鹏P7+上市时,其产品负责人在接受采访中表示,原本小鹏P7+在研发时计划直接使用英伟达Thor芯片,但由于这款芯片一直延期,最终他们采用了双Orin-X的配置。


英伟达这个名叫Thor的大饼已经三年还没吃上了。

当智驾方案在技术层面的差距逐渐缩小,如何确保最新智驾方案可以迅速产品化就成为每家车企需要解决的下一个问题;而当算力成为制约产品落地的因素时,自研智驾芯片也就成为每家车企不得不考虑的方案。

在2024年NIO IN上,蔚来在宣布其5纳米自动驾驶芯片「神玑NX9031」成功流片,计划在2025年第一季度将该芯片首次应用于其旗舰轿车ET9上。同期,小鹏汽车也宣布自研的智能驾驶芯片成功流片。此外,理想汽车也在推进自研智驾芯片,不过其代号为「舒马赫」的芯片在去年年底被传流片失败,目前暂时没有新的消息传出。

不只是造车新势力「御三家」,吉利、比亚迪、华为也都在布局智驾芯片。这不仅是出于摆脱英伟达产能限制的需求,降低成本也是它们的主要动力之一,毕竟一套智驾方案中,芯片是成本的大头——目前每块Orin X芯片的售价接近500美元。

微信编辑| 七三

ad1 webp
ad2 webp
ad1 webp
ad2 webp