撰文:308

编辑:经纬

端到端的到来,再一次推动了智能驾驶在全球范围内的跨越式发展,也引发了大量关注。

尤其是在中国市场,端到端的智驾方案已经成为整个行业的共识,各个玩家都在纷纷通过不同的方式拥抱端到端;由此,各个玩家在算法层面追求突破的同时,也充分意识到了车端算力的极端重要性——于是,大家又把关切的目光朝向了英伟达。

而对于英伟达来说,这种关注当然不算错,但却并不全面。



实际上,如果从英伟达在自动驾驶行业进行布局的整体视角来看,车端算力本身,仅仅是英伟达参与到智能驾驶行业发展的冰山一角,这一点确实更受市场和普通消费者的关注。

但是,被严重忽视的是,围绕着自动驾驶的整体技术实现路径,英伟达实际上在用户感知并不明显的云端、软件侧、工具链等方面都进行了全方位、多角度的布局。

而这些整体布局,也是英伟达通过自身的体系能力全面赋能自动驾驶的有力证据。

一个工具齐全的「厨房」

对于普通用户来说,智能驾驶的体验本身,往往与车企推送的一次次 OTA 升级密切相关,这些升级中包含的车端智驾算法模型,成为了用户实际智驾体验不断提升的关键——但问题在于,这些运行于车端的智驾算法模型,并非是凭空而生。

事情的真相是,它们是由车企或智能驾驶供应商基于云端环境构建出来。

做一个不太恰当却比较形象的比喻,如果说运行在车端的智驾算法模型,是一盘盘用户可以品尝的「菜品」,那么这个云端环境本身,更像是一个工具齐全、便利好用的「厨房」。

而在不少智驾玩家的选择中,尤其是自研方案车企的智驾体系中,这个「厨房」本身,都是基于英伟达的技术来构建的。



这里需要明确一个前提:对于所有致力于自动驾驶的玩家来说,自动驾驶能力的构建,都是一个极其复杂的系统性工作流程。粗略来讲,它主要包括数据处理和神经网络算法的构建这两大模块,而这两个模块都需要大量纷繁复杂的工作要处理——但在英伟达软硬件技术的助力下,这些工作可以被处理得更加高效。

比如说,在自动驾驶的数据处理流程中,往往需要从大量的数据中寻找到一些安全性相关的边缘案例(包含动态场景、多模态传感器融合)并进行数据标注工作,才能够服务于算法构建。因此,自动驾驶的数据处理环节,对于任何一个玩家来说,都是挑战巨大、成本高企 的难题。

不过,一旦玩家们采用英伟达技术,就可以在英伟达云计算平台(NGC)的助力之下,通过预训练模型来注释图像,同时可以在图像处理中采用来自于英伟达的视频编解码技术,并且可以通过英伟达 TAO AI 模型自适应平台来进行模型优化——其结果是,采用英伟达技术之后,人工标注工作可以减少高达 50%,而整个数据标注流程的效率可以提升 30%。



当然,针对特定玩家的自动驾驶技术路径选择,英伟达也可以提供相应的助力。

比如说,2024 年,理想汽车在自动驾驶技术方向上采用了端到端 + VLM 的技术方案,这一方案,对于多模态数据处理和智能驾驶的认知与决策能力提出了新要求。于是,在英伟达的帮助之下,理想汽车能够对理想 L9 车型的数据进行重建和动态编辑,有效利用历史数据,提高了数据处理的效率和模型训练的泛化能力。

同时,英伟达 Replicator 能合成稀有场景数据,从而帮助智驾系统更好地处理边缘情况;英伟达 NeMo 框架支持智能汽车的视觉语言模型应用,提供了从数据处理到模型训练、模型验证的解决方案;在模型部署优化方面,英伟达的 TensorRT-LLM 框架和深度学习加速器也都提供了很好的助力。

以上这些,其实都是英伟达为理想汽车端到端 + VLM 方案的实现而提供的有效技术支撑。

另外,还有一个很容易被普通用户忽略的信息是,类似于 DRIVE Orin 和 DRIVE Thor 这些功能强大的车端算力平台,也需要英伟达的软件技术来加持。

比如说,为了推动 Orin 和Thor 芯片更好地运行,英伟达专门开发了 DriveOS。

具体来说, DriveOS 是整个英伟达 DRIVE 软件堆栈的基础所在,也是针对车载加速计算而率先推出的安全操作系统,包括用于实现高效并行计算的 NVIDIA CUDA 库、用于进行实时 AI 推理的 NVIDIA TensorRT,以及用于处理传感器输入的 NvMedia。



它包含了跨 CPU、GPU 和其他 DRIVE AGX 硬件加速引擎构建、调试、分析和部署自动驾驶汽车和自动驾驶汽车应用程序所需的所有软件、库和工具,可以为自动驾驶开发者提供一个安全可靠的执行环境,并提供安全启动、安全服务、防火墙和无线 OTA 更新等服务。

值得强调的是,在 DriveOS 的基础上,英伟达 DriveWorks 也提供了对自动驾驶汽车开发来说至关重要的中间件功能。这些功能包括传感器抽象层 (SAL) 与传感器插件、数据记录器、车辆 I/O 支持和深度神经网络 (DNN) 框架——该工具拥有模块化和开放的特点,在设计上符合汽车行业软件标准。

可以说,没有 DriveOS 和 DriveWorks 的加持,Orin 和 Thor 就无法在车端更好地运行。

另外,不得不强调,尽管英伟达的 Orin 和 Thor 确实成为众多智驾玩家在车端算力平台选择上的不二之选,但是被大多数普通用户忽略的是,其实在软件层面,英伟达也基于这些车端算力平台做了非常巧妙的布局,从而不断提升车端算力平台的运算效率。

一个典型的案例,是英伟达为自动驾驶客户提供的一个基于软硬件结合的 PVA 方案。

具体来说,为了减轻越来越繁重的 AI 工作负载,开发者可以直接在 Orin 和 Thor 这样的 SoC 中运行一个专门的可编程视觉加速器(PVA), 它可以承担一些由 GPU 或其他硬件引擎处理的任务, 从而降低负载并使之能够更加高效地管理其他关键任务。



本质上,PVA 更加类似于一个可以由开发者自定义的 AI 加速器,来解决自动驾驶汽车开发中的计算问题,从而能够更高效、更有效地处理复杂的视觉任务,并提高整体系统性能——目前,基于 PVA 的优化解决方案显著提高了蔚来自动驾驶的性能,并被广泛应用于蔚来的量产车型中。

车端布局,不仅仅是算力

当然,从普通用户感知的角度,英伟达在自动驾驶行业最受关注也最为认知的,是它所提供的车端智能驾驶计算平台,也就是已经大规模上车的 Orin 和即将上车的 Thor。

这并不令人感到意外。

确实,从当前行业的落地来看,AI 算力为 254 TOPS 的英伟达 Orin 计算平台,已经成为事实上的高阶智能驾驶标准配置。

从目前已经走向市场的情况来看,无论是蔚来、小鹏、理想等新势力品牌,还是智己、腾势、极氪等来自于大型车企的新品牌,都已经在旗下车型中采用了英伟达 Orin 方案。

可以说,从整个自动驾驶行业商业落地的维度来看,英伟达 Orin 是目前全球范围内出货量和车端部署量最大的算力平台产品。

当然,从技术发展的维度,作为 Orin 的继任者,Thor 本身更值得关注。

Thor 实际上是英伟达最新一代面向自动驾驶的车端计算平台,它也将高阶的智能驾驶功能和车载信息娱乐功能集成到了单个安全可靠的系统中。这款自动驾驶汽车处理器采用了英伟达的最新 CPU 和 GPU 技术,包括用于 Transformer 和生成式 AI 功能的 NVIDIA Blackwell GPU 架构。

从算力层面来说,英伟达 Thor 支持 8 位浮点格式 (FP8),可在降低整体系统成本的同时,提供 1000 INT8 TOPS 性能——这一算力几乎是 Orin 的 4 倍。



当然,在具体的商业落地层面,Thor 也已经获得了大量合作伙伴的认可,并由此取得了明显的突破。

具体来说,2024 年,Thor 获得了越来越多的主机厂客户。

比如说,在 CES 2024 活动期间,理想汽车宣布将在 Thor上构建其未来汽车产品;而在 GTC 2024 活动上,比亚迪宣布将基于 Thor 构建下一代电动车型。同时,广汽埃安宣布旗下高端豪华品牌昊铂下一代电动汽车将采用 Thor 平台,新车型将于 2025 年开始量产。

另外,除了主机厂之外,Thor 也正在被一批来自于卡车、自动驾驶出租车、配送车等其他细分领域的厂商所选用。比如说,来自硅谷的自动驾驶配送车辆制造商 Nuro,已经选择 DRIVE Thor 来为它旗下的集成式自动驾驶系统 Nuro Driver 提供助力。

总体可见,Thor 的商业落地场景,已经不仅仅是瞄准了资金实力更加雄厚的主机厂,也包括一批致力于推进自动驾驶前沿技术发展的方案商——本质上,这也是英伟达自身在面向自动驾驶行业发展过程中的更有效选择。

值得强调的是,在 Orin 和 Thor 逐渐走向落地的过程中,英伟达不仅仅提供了算力基础本身,也提供了诸如上文中提到的一系列软件和算法服务——更重要的是,英伟达也在端到端、大模型等前沿技术上持续探索,为整个自动驾驶行业的发展方向寻求更优解。

在虚拟之中,走完现实的路

在自动驾驶的落地过程中, 还有一个所有玩家都不得不面临的真正难题:当一个智能驾驶模型被开发出来之后,如何对它在实际场景中的效果进行真正有效的测试和验证。

到了端到端时代,这个难题更是被无限放大,成为各家在智能驾驶开发中的终极考验。

其原因是,人类的道路场景本身就复杂多样,任何一家车企都没有能力在全世界的每个角度进行实地验证;除此之外,即使是同样的道路场景,也存在着天气状况、拥堵情况、交通参与者、是否施工等各种各样的差异——这就意味着,在真实的场景中进行各种各样的验证,是一件根本不可能完成的事情。

因此,寻找到一个能够具备广泛通用性、普适性的替代方案,就显得极为关键——正是基于这一原因,英伟达也在自动驾驶的仿真测试方面进行了深入布局。

具体来说,就是NVIDIA Omniverse 平台。

从概念上来说,NVIDIA Omniverse 是一个基于 USD(Universal Scene Description,通用场景描述,一种能够表述精准物理模型的通用标准,它由苹果、英伟达等公司定义)、用于创建和运行各种虚拟世界应用的平台。

这一平台可以应用到多个领域和行业——而对于自动驾驶来说,它能够很好地满足行业里对于高保真自动驾驶汽车仿真的需求。



事实上,仿真对于开发和验证自动驾驶汽车的安全关键功能而言至关重要,但需要在部署之前进行充分测试。高保真仿真为各种场景下的系统训练提供安全、可控且逼真的环境——利用 Omniverse,可有效地对现实世界条件进行仿真,使车辆得以在上路前通过数字孪生进行安全测试和验证。

比如说,针对各种驾驶条件,尤其是一些无法在现实世界中复现的场景,比如说恶劣的天气、交通变化或者罕见的危险场景,Omniverse 可以利用生成式 AI 的一些最新技术进行精准建模,并且可以作为训练数据的一部分。

与此同时,当自动驾驶开发者在进行任何自动驾驶车辆的物理原型设计之前,可以通过 Omniverse 部署虚拟车队来设计新传感器和堆栈的原型,从而减低在实际开发过程中的物理测试和验证成本。

值得一提的是,为了满足行业里对于自动驾驶传感器和周围环境的物理特性和行为进行精确建模的需求,英伟达在 GTC 2024 上还专门发布了 Omniverse Cloud 应用编程接口(API),它们汇集了一个由仿真工具、应用和传感器组成的丰富生态系统,从而可以满足高保真传感器仿真的关键需求——以安全的方式探索自主系统将会遇到的无数现实场景。

比如说,通过 Omniverse Cloud 应用编程接口,开发者可以访问不同制造商提供的传感器模型,其中包括禾赛、速腾、Seyond 等激光雷达制造商,也包括 OMNIVISION、安森美和索尼等视觉传感器供应商。同时,开发者还可以调用这些应用编程接口,从而生成大量且多样的合成数据集,为训练和验证这些自主系统所使用的感知模型提供关键数据。



除了能够解决在自动驾驶落地场景中的仿真测试问题,NVIDIA Omniverse 也能够很好地服务于于自动驾驶汽车本身的外观设计、可视化等。

比如说,专注于整车研发、核心零部件研发及制造、新能源汽车研发等领域的阿尔特汽车,就借助 NVIDIA Omniverse 平台、NVIDIA Modulus 以及 NVIDIA RTX GPU 的算力构建了一个面向汽车设计、评审与性能优化的全方位数字化平台。

其中,通过 Omniverse Composer,阿尔特的设计工程师们可以快速切换不同的汽车造型,从而在短时间内探索多种设计方案;利用 Omniverse Connector,阿尔特使不同 DCC 软件和 Composer 能够进行实时协同,实现了工程师之间的并行工作,极大提高研发效率。



有意思的是,阿尔特汽车还利用 Omniverse Action Graph 制作汽车组件拆解爆炸效果视频,节省大量时间。

技术体系,才是核心竞争力

如果站在技术落地的角度来看,智能驾驶是人工智能面向物理世界和汽车行业进行应用和赋能的典型场景。

实际上,人工智能虽然面向各行各业都拥有很大的赋能潜力,但这个过程都是非常艰难的。因为它需要的并不仅仅是人工智能算力的构建;更为重要的环节是,如何通过一系列复杂的全栈技术布局,把算力应用和服务于特定的行业场景,从而赋能于人类。

某种程度上,人工智能的落地,考验的是体系能力。

从这个角度来看,英伟达在智能驾驶行业扮演的角色,也不仅仅是车端算力平台的提供者的角色,而是通过它在从云端训练到车端推理的一系列过程中的整体布局,来实现对于自动驾驶行业的底层赋能。

这其中,软件的角色最容易被忽视,但却同样重要。



也许,从这个角度来看,我们也许能够更加容易理解,尽管英伟达为整个人工智能行业的发展提供了足够强大和先进的算力平台,但从业务逻辑来说,作为英伟达掌门人的黄仁勋,更愿意在公开场合反复强调它在软件算法和应用生态的布局。

从自动驾驶行业发展的角度来看,英伟达其实也一直是在软硬件一体化的角度去进行布局和深耕,并且最终获得市场认可。

尽管市场和消费者更加关注硬件和算力参数本身,但不得不承认的是,软件能力也是英伟达在自动驾驶的技术和商业体系中所构建出来的核心竞争力。

软硬件之间密不可分,它们共同构成了英伟达在自动驾驶行业的技术护城河。

当然,无论是否被市场充分认知,面对自动驾驶领域正在发生的 重大技术变革和商业落地机遇,英伟达硬件和软件的持续深耕还将继续,并且会更加紧密——这固然是技术的逻辑,但它也是商业的逻辑,但最终,这也将会是英伟达获得市场认可、并能够继续为自动驾驶行业的发展贡献长期价值的核心驱动力之所在。

本文来自微信公众号“智见 Time”,作者:308被智驾行业误解,是英伟达的宿命

ad1 webp
ad2 webp
ad1 webp
ad2 webp