机器之心报道
作者:泽南
城市、高速一体化,从车位到车位的全程自动。
最近一段时间,随着新车型和新技术的发布,智能驾驶再次成为人们热议的话题。
有的车企想要做减法,在发布活动上表示「十个人有没有一个人用辅助驾驶」,也有车企表示「新能源下半场一定是智能化与网联化的,新形态的智能驾驶将会彻底改变人们出行的体验。」
问题的核心在于「实用性」:全球范围内,智能驾驶的架构和形态经历了一轮又一轮迭代更新,从最早的高速领航辅助驾驶,到城市 NOA,再到覆盖全域的智能驾驶。支撑智能驾驶的输入端也经历了变革,从有图到无图,再到是否要做纯视觉的方向之争。新概念层出不穷,然而在很多人看来,智能驾驶这一路走来,似乎发展的速度在逐渐落后于我们的预期。
2024 年 12 月底,这场大讨论进入了高潮。1 月 16 日,理想的 OTA7.0 正式版开启了全量车主推送。随着 OTA7.0 的全量推送,理想宣布,其 OneModel 端到端 + VLM 智驾系统已经实现了「全场景端到端」能力。
与之同时上线的还有行业首创的 AI 推理可视化能力,它首次将自动驾驶过程中 AI 模型思考推理的过程可视化展现出来,让我们第一次看到了 AI 的思考和执行过程,因此也可以更加放心。同时,理想也成为了国内唯一、全球第二家将端到端技术应用到城市、高速及环路 NOA 场景的车企。
理想表示,自 OTA 5.0 采用 BEV 架构并推出城市 NOA 后,理想内部对 AD Max 启用独立版本号进行管理。过去的一年里,其共完成 12 次 AD Max 的重大更新。
为了让用户更好地感知智能驾驶迭代,随着 OTA7.0 升级,AD Max 的内部智能驾驶版本号将向用户展示,智能驾驶版本升级为 AD Max V13.0。
从车位到车位,覆盖全场景
AI 推理还能可视化
理想的 OneModel 端到端智驾号称拥有极强的覆盖和适应能力,风格更加拟人化,驾驶习惯也更丝滑,它还支持全国的新开通高速、长隧道、城市 / 高速切换点等道路的行驶,可以在大部分路段无降级不断点地智驾通行。
我们使用一辆理想 L7 Ultra 对最新的智驾版本进行了测试。
据更新说明介绍,我们测试的智能驾驶 OTA 版本是在 800 万 clips(视频片段)基础上迭代的,增加了导航变道的数据配比。
首先吸引眼球的是中控屏上,理想在业内首创的「AI 推理可视化」。它打开了 AI 模型的黑箱,对端到端 + VLM 模型系统的思考过程进行了直接的展示,包括从物理世界输入到决策结果输出的整个过程,并在中控屏或副驾屏上实时显示出来。
可以看到,这个可视化界面分为三个区域:
- E2E(端到端模型)—— 其中显示自车、其他车辆、道路车道线、轨迹线预测等信息。蓝色轨迹线代表模型计算过程中判定的正确轨迹,灰色轨迹线则代表模型计算过程中判定的偏移轨迹。轨迹线计算共展示 10 个窗口,代表一种模型输出结果,最终 AI 会选择一条老司机认为最正确的轨迹来执行操作。
- 第二个部分是 Attention(注意力系统)—— 其中显示系统对实时视频流中的交通参与者行为和环境路况进行评估,分析其类型、位置、速度、角度等属性,并辅助端到端模型计算出最佳的行驶轨迹。其中会以热力图形式展示注意力系统的工作状态,其中颜色更暖(偏红)的区域代表对智能驾驶决策影响更大的区域。
- 第三个部分则是 VLM(视觉语言模型)—— 它展示了视觉语言模型的感知、推理和决策过程,像我们常见的大模型应用一样将车载摄像头看到的交通情况用文字的形式加以解释。当识别到有对智能驾驶决策有影响的环境路况和交通规则变化时,VLM 能够及时感知信息,并做出合理的推理决策。
据理想介绍说,对于端到端系统来说过于复杂的场景,会交由 VLM 进行决策,比如丁字路口、公交车道限行、施工路段、避让旁边的大车等等。这样的配置为智能驾驶加了一道保险。通过 VLM 的识别,理想也实现了行业唯一的全国任意高速收费站 ETC 闸机自主通行,再加上城市与高速一体化的架构,真正做到了全场景 100% 智能驾驶。
更重要的是,现在你能看到 AI 是如何做出决策的。第一次打开智能驾驶还会有些紧张,过不了一会儿悬着的心就放了下来,人与车之间的疏离感也减少了。
在北京城区内行驶了一个上午,我们可以明显地感受到,端到端智能驾驶系统与过去的智能驾驶相比体验截然不同。它的工作区域覆盖面更广,也更聪明。在通过匝道等大曲率弯道时,AI 的操作已经足够稳定。
智能驾驶系统在碰到前方慢车可以更早地变道,遇到大货车也会向另一侧稍微躲避,遇到加塞情况刹车也更加从容。
此前,理想的城市智能驾驶(6.0 版本及以前)是基于 BEV+OCC 和 Transformer 的业内主流方案。在这样的技术体系之上,很多车企开启了部分城市的无图 NOA,但这种智能驾驶的效果仍称不上完美。
新版本的端到端辅助驾驶则带来了巨大的提升。它保留了激光雷达的数据输入,保证了安全性的下限。另外,它不仅模型是端到端的,实现的驾驶体验也是「端到端」的 —— 解决了智能驾驶的最先和最后 100 米问题,能做到从家中车位到目的地车位的全程智能驾驶,顺利通过停车场闸机、红绿灯,合理避让横穿马路的行人、电动车,或是与其他车辆并线博弈。
理想表示,未来两年,当训练数据量达到 2000 万 Clips 时,MPI(每次干预行驶的里程数)有望达到 500 公里。
当然,目前的智能驾驶还是可能会碰到一些无法处理的情况,但在试了试端到端智能驾驶之后,我们至少可以肯定地说,真的不一样。随着这套技术的发展,或许用不了多久它就可以真正做到对老司机的一比一复刻。
端到端 + VLM 大模型
实现降维打击
为什么说端到端的智能驾驶打出了代差?这就要从最近 AI 领域的大模型革命开始说起。
自 2022 年底开始,生成式 AI 席卷了整个科技领域,越来越多的行业开始引入大模型。在自动驾驶领域,人们开始探索视觉语言模型与世界模型等技术,端到端(End-to-End)的智能驾驶成为了新兴的研究方向。
端到端的智能驾驶是指把车辆从摄像头、雷达、激光雷达等传感器获得的数据作为输入,利用单个 AI 模型直接生成控制汽车指令的方法。2023 年 6 月,全球 AI 顶级学术会议 CVPR 2023 的最佳论文颁给了 UniAD 框架,它是业界首个感知决策一体化的自动驾驶通用大模型,打开了以全局任务为目标的自动驾驶架构方向。
在端到端的智驾系统中,大模型通过学习人类司机操作的视频片段,根据人类决策理解画面信息和决策之间的关系,再不断进行实践和调整,比起以往的模块化辅助驾驶,更像人类的学习过程。和 ChatGPT 一样,智能驾驶模型可以在面对前所未见的场景时实现「举一反三」,很大程度上摆脱了对人类编写规则的依赖。
最近一年多时间以来,国内外一众新势力都在频繁提及端到端的概念,认为这将是智能驾驶的技术终局。正如机器人公司正在热捧的「具身智能」,端到端的智能驾驶是给高智商 AI 赋予汽车的躯体,让它在物理世界中行动自如的方法,一旦实用化,显然会是降维打击。
2024 年 1 月 ,特斯拉率先在 FSD v12 版本上实现了端到端智能驾驶的落地,新系统据称只用了几个月的训练时间就击败了之前数年时间积累的 v11 版。
理想成为了紧随其后的第二家,2024 年 7 月,向外界公布了理想 AD 的全新技术方案,并已于 10 月底全量上线。据介绍,理想的双系统基于 E2E+VLM 大模型,是从诺贝尔奖得主丹尼尔・卡尼曼《思考,快与慢》中得到的启示。
基于系统 1 和系统 2 的理论,理想提出了一个全新的自动驾驶架构:使用端到端模型实现类似本能的快思考,保证大多数场景的高效;利用速度偏慢但思考能力上限更高的 AI 模型(DriveVLM)实现少数复杂场景下的处理能力。这样就可以让智能驾驶系统「更像人」。
简而言之,其中的系统 1 是真正意义上的端到端模型,输入是传感器收集到的数据,输出是车的行驶轨迹,全部由一个模型来实现,中间没有任何手工的规则。端到端大幅度提升了安全、舒适和效率,具备更拟人化的驾驶方式。
它具有一系列优势:
- 首先是高效的信息传递,此前的智能驾驶架构经常包含很多规则,限制了整体的上限。在一体化的模型中,所有信息都在模型内部传递,具有更高的上限,给人们的感受就是更加拟人了。
- 第二是高效计算,单一模型在 GPU 内加载可以一次性完成推理,降低了系统的延迟,体感就是「手和眼」更加协调一致了。
- 第三是技术的迭代速度也变得更快了。由于是一体化的 AI 模型,可以实现完全的数据驱动,可以很轻松地做到周级的迭代。
我们可以在实践中观察到,端到端的智能驾驶系统具有不错的未知物体理解能力,可以识别出倒在地上的桩桶、树枝等训练数据中没有的物体并进行规避。它也具备超越视距的导航与道路结构理解,可以在没有任何先验的情况下应对西直门这样的复杂立交桥。在一些复杂的路况,例如有车辆违停在右侧道路上,又有电动车行驶在行车道上的情况下,端到端模型也可以展示拟人的规划能力,寻找到一条较为高效的路线。
就像 OpenAI 的 o3 大模型一样,这种智能不是人工设计出来,而是 AI 自己学会的。
端到端大模型可以解决智能驾驶过程中 95% 的场景,剩下 5% 的情况就要交由「系统 2」来进行理解和判断。在理想的智能驾驶系统中,系统 2 是由 VLM(视觉语言模型)来实现的。它可以把对于环境的理解、驾驶决策的建议甚至参考轨迹递交给系统 1 来帮助辅助驾驶策略。
比如在遇到坑洼的路面,VLM 会指挥车辆降低速度;如果发现实际路线和规划导航不一致,它可以自己重新规划路线;此外,它还能准确地识别限时公交车道、潮汐车道是否可以通行。
这就好像是在副驾驶的位置上有一个教练在实时监督驾驶行为,主动提供建议。
有了成套的方法,接下来还需要验证整个系统的可行性。理想采用了 3D 环境重建加世界模型的方式,结合了多种方法的优点,生成的环境在多个视角上可用,又可以生成更多符合真实世界规律的未见场景,提升了智能驾驶的泛化性。
跑通流程以后,理想继续改进了 AI 的训练方法。端到端的学习目标是行驶轨迹,并不像感知任务只需要给出是或否的判断。在日常生活中,即使是同一个司机也可能作出不同的行驶策略,这可能会导致 AI 学习出一些诡异的驾驶行为。因此,理想在训练过程中加入了强化学习,通过奖励函数的设置学习出策略正确的模型。
再往下是部署和优化。VLM 在端侧部署时,工程师们面临着推理时延的挑战。通过从量化到张量算子融合等大量优化技术,理想把 VLM 推理时延从 4.1 秒缩减到了 0.3 秒,业界首次在 Orin-X 硬件上部署了大模型,真正实现了视觉模型在智能驾驶上的实用化。
正是这样一套系统,做到了全场景的端到端与可视化,也成为了国内首个车端部署大模型的自动驾驶系统。
理想表示,基于北美实际对比体验,理想端到端的 NOA 驾驶体验,已比肩特斯拉北美 FSD 最新版本 V13.2 水平。
现在的理想
是一家人工智能企业
端到端智能驾驶的突破,是一个从量变到质变的过程。
作为销量靠前的新能源玩家,理想在国内拥有超百万规模的自动驾驶车队,在过去几年积累了超过数百亿公里的行驶里程。理想从所有车主数据中筛选出优质数据,建立了一套「老司机」的评价标准。老司机既要具备好的驾驶技能,也要有好的驾驶习惯。只有不到 3% 的车主通过了考核。
理想在 2024 年年初拥有了 5EFLOPS 的算力 ,再加上智能驾驶团队此前在端到端模型上的预研成果,做到了天时地利人和。2024 年 1 月 1 日 - 12 月 31 日,理想智能驾驶累计用户已超百万人,智能驾驶总里程达 17.2 亿公里。截至去年年底,算力也已提升至 8.1EFLOPS。
再往高一层看,智能驾驶水平进入世界第一梯队的理想,正被全新的使命驱动着。
此前,理想创始人、CEO 兼董事长李想畅谈了公司的未来发展方向。他认为电动化是上半场,智能化是下半场,理想汽车未来一定会持续发力 AI,最终通过理想汽车的载体来实现 AGI(通用人工智能)。
理想把自己定义为一个人工智能企业,目标是把人工智能进行汽车化,并推动 AI 普惠到每一个家庭。最近一年理想的 100 亿研发投入,近一半投在了 AI 上,它自研了基座模型、端到端加 VLM 的自动驾驶系统,从最开始的论文、技术研发到产品的交付,不断引领着业界风向。
可以说,端到端的智能驾驶,是理想长期坚持核心技术自研的必然体现。
值得一提的是,李想给 AI 的未来定义了三个阶段:
- 第一阶段——成为人类能力的延伸和增强,提升工作效率(L3 阶段),有望在 2025 年实现。在此阶段我们还需要在行驶过程中对 AI 进行监督。
- 第二阶段——成为人类的助手(L4 阶段),能够 100% 自动驾驶并承担相应责任,有望在三年内实现。这会推动新技术的大规模应用。
- 第三阶段——硅基家人,AI 智能体可以自主地工作,帮助人们管理好家庭中的各种事物,人类的记忆也可以在 AI 上得到延续。
为此,理想希望从两个方向入手,一面是端到端智能驾驶,另一面是理想同学 App。后者已于 2024 年底全量上线。
在李想看来,理想同学和自动驾驶,将来有一天还会融合在一起:「我们认为,基座模型到一定时刻一定会变成 VLA(Vision Language Action Model),因为语言模型也要通过语言和认知去理解三维世界。而自动驾驶在走向 L4 时必须要有极强的认知能力。当技术形态发生变化,它才能够有效地理解这个世界。」
通往 AGI 的路,理想已经开了个好头。