车东西(公众号:chedongxi)
作者 | Janson、R
编辑 | 志豪

理想汽车4篇论文中稿CVPR 2025,智驾一把手郎咸朋署名。

车东西3月5日消息,据CVPR官方及媒体信息显示,CVPR 2025审稿工作已经结束,理想汽车中稿4篇。

CVPR(Computer Vision and Pattern Recognition,国际计算机视觉与模式识别会议)是IEEE(电气和电子工程师协会)主办的一年一度的国际会议,被公认为计算机视觉领域的顶级会议之一,和ICCV、ECCV并称计算机视觉三大顶级会议,近年来也不断有自动驾驶领域的前沿研究获奖​。​

同时,CVPR 2025也是相比往年来竞争最为激烈的一年,此次共收到13008篇,最终录用2878篇,录用比约为22.1%。


▲CVPR 2025公布最终录用信息

具体来看,理想汽车在CVPR 2025中被录用的4篇文章主要集中在自动驾驶仿真领域,其中在StreetCrafter开发高质量的街景合成等文章的相关研究中,理想汽车自动驾驶研发副总裁郎咸朋出现在署名作者中。


▲郎咸朋在车东西第四届全球自动驾驶峰会发表演讲

此外,智能驾驶技术研发负责人贾鹏、智能驾驶高级算法专家詹锟、理想汽车高级算法工程师王一达的名字也都出现了论文署名中。

与此同时,本次的四篇论文也都是校企合作的产物,北京大学、浙江大学等知名学府、中科院自动化所等头部科研机构都有参与到研究当中。


▲理想汽车多名自动驾驶研发高管在论文中

从技术路径看,此次理想汽车被录用的4篇论文中,突破性主要体现在三个方面:

1、多模态融合的仿真框架(如StreetCrafter结合LiDAR与视频扩散模型,DrivingSphere构建4D占用网格),通过几何约束与生成式模型结合,显著提升视角外推与场景编辑能力;

2、闭环仿真与动态交互优化(如DriveDreamer4D引入世界模型生成多样化轨迹,ReconDreamer实现大动作在线修复),突破传统开环仿真的数据局限性,增强复杂场景下的测试鲁棒性;

3、结构化条件控制与渐进式训练策略,系统性缓解生成内容漂移问题,推动仿真数据与真实场景的分布逼近。

汽车企业的研发部门参与AI论文研究,一方面是对前沿技术的探索,另一方面也要考虑到实际的应用价值。在本次发表的论文中,诸如实时渲染速度、闭环交互机制、轻量化数据依赖,都跟车企对仿真工具的高效、低成本需求高度契合。

但需客观指出,当前研究仍面临数据采集成本、极端场景覆盖度、实时生成效率等共性挑战,且技术验证多局限于Waymo等结构化数据集,尚未充分适配复杂城市场景的长尾需求。

一、StreetCrafter:结合LiDAR与视频扩散模型的街景合成技术研究

在自动驾驶仿真领域,开发高质量的街景合成技术是一个重要的研究方向。而当下理想汽车进行自动驾驶训练的世界模型则也很大程度上依赖高质量的训练数据。


▲StreetCrafter作者

然而,如NeRF(神经辐射场)和3DGS(3D高斯)等现有的方法,常在视角偏离训练轨迹时表现不佳,导致渲染结果出现模糊或伪影。

为了解决这一问题,研究者们提出了一种新框架——StreetCrafter,该框架结合了LiDAR(激光雷达)几何信息与视频扩散模型,可实现精确的相机控制和高质量的新视角合成,同时支持实时渲染和场景编辑。

从这里不难看出,理想马上要把所有的车都装上激光雷达也是有道理的,毕竟前沿的训练都开始采用激光雷达的数据来进行了。


▲StreetCrafter是一种新颖的可控视频扩散模型

StreetCrafter的核心方法包括可控视频扩散模型和动态3D高斯表示蒸馏。

首先,在可控视频扩散模型中,关键设计为LiDAR条件生成。该过程将多帧LiDAR点云聚合为全局点云,并通过渲染生成像素级条件图像,作为扩散模型的输入。


▲StreetCrafter概览

在训练过程中,利用变分自编码器(VAE)将输入图像和LiDAR条件映射到潜空间,并通过U-Net去噪生成视频帧。

在推理阶段,根据新视角的相机轨迹渲染LiDAR条件,指导扩散模型生成一致的新视图。此外,场景编辑功能允许用户通过修改LiDAR点云(如删除或替换对象)直接控制生成内容,无需逐场景优化。


▲StreetCrafter在Waymo数据集上的编辑结果。

其次,动态3D高斯表示蒸馏则力求解决3D高斯(3DGS)在视角外推时的表现不佳问题。通过生成监督,StreetCrafter生成的新视角图像作为额外的监督信号,优化3D高斯的几何和纹理。

此外,混合损失函数结合了L1、SSIM(结构相似性)和LPIPS(学习图像块感知相似度)损失,以强化语义一致性,并采用渐进优化策略,逐步降低噪声比例,以平衡生成先验与细节优化。

在实验结果方面,研究使用了Waymo Open Dataset和PandaSet数据集,基线方法包括3DGS、Street Gaussians、EmerNeRF、UniSim和NeuRAD,评价指标包括PSNR(峰值信噪比)、LPIPS(学习图像块感知相似度)和FID。


▲StreetCrafter在Waymo数据集上的定量结果。

结果显示,在视角外推方面,StreetCrafter在3米偏移下的FID(越低越好)为71.40,显著优于Street Gaussians的93.38,生成的图像在复杂区域(如车道线和移动车辆)更清晰,伪影更少。


▲StreetCrafter蒸馏的视觉消融结果。

同时,蒸馏后的3DGS保持了80-113 FPS的实时渲染速度,与基线相当,且支持对象平移、替换和删除,编辑结果与场景几何一致。

此外,消融实验验证了LiDAR条件的有效性,使用聚合点云(多帧)的FID为55.53,优于单帧(73.25)和投影点云(66.29)。相机参数或3D包围盒条件的使用导致模糊和几何错位。蒸馏策略方面,LPIPS(学习图像块感知相似度)损失提升了细节锐度,而渐进噪声比例的调整(从0.7降低到0.3)则平衡了生成质量与训练效率。


▲StreetCrafter在设计选择上的消融研究

总的来看,StreetCrafter通过可控视频扩散模型的引入,使得通过LiDAR点云的像素级条件实现精确视角控制和场景编辑;动态3D高斯蒸馏的应用,提升了视角外推能力并保持实时渲染。

然而,研究也指出了一些局限性,例如对LiDAR和对象轨迹标注的依赖使得数据采集与处理成本较高,StreetCrafter的生成速度仅为0.2FPS,需优化模型架构,以及LiDAR对形变物体(如行人)的支持有限,未来可结合时序建模进行改进。

二、DrivingSphere:构建高保真4D自动驾驶仿真环境

在自动驾驶技术的发展中,构建一个高保真、动态闭环的仿真环境是面临的核心挑战之一,以支持端到端算法的全面测试。然而,现有的仿真方法存在一些局限性。


▲DrivingSphere

开环仿真(Open-loop)依赖固定路线或预生成数据(如nuScenes和Waymo数据集),无法有效测试动态决策能力,并且数据多样性受到限制。


▲用于评估端到端自动驾驶(AD)算法的框架比较

闭环仿真(Closed-loop)虽然支持动态反馈(如CARLA和SUMO),但往往存在视觉保真度不足(与真实传感器数据差异较大)或几何建模粗糙(仅关注道路和车辆而忽略环境元素)的缺陷。

此外,现有的生成式仿真方法(如MagicDrive和DriveArena)虽然能够生成逼真的视频数据,但缺乏与自动驾驶代理的闭环交互机制。因此,DrivingSphere提出了一种生成式闭环仿真框架,同时满足高视觉保真、动态闭环反馈和几何精确建模的需求。


▲DrivingSphere框架概览

DrivingSphere的创新方法论基于4D(3D空间加时间)占用网格(Occupancy Grid)建模,包含三个核心模块。

首先,动态环境组合(Dynamic Environment Composition)旨在构建城市级4D驾驶世界,涵盖静态背景(如建筑和植被)以及动态交通参与者(如车辆和行人)。

该模块采用OccDreamer,一个基于鸟瞰图(BEV)和文本条件控制的3D占用扩散模型,用于生成静态场景。它通过VQ-VAE将3D占用数据压缩为潜在表示,并结合ControlNet分支注入BEV地图和文本提示,逐步生成城市级连续静态场景。


▲OccDreamer框架

动态参与者管理通过构建“Actor Bank”存储交通参与者的几何、语义和行为属性,利用语义相似性或随机采样动态选择参与者,并根据自动驾驶代理和环境代理的控制信号动态更新参与者位置。

其次,视觉场景合成(Visual Scene Synthesis)模块将4D占用数据转换为多视角高保真视频,确保时空一致性与视觉真实性。

该模块采用双路径条件编码,利用预训练的4D编码器提取场景几何与时空关系,并通过相机参数将3D占用投影到2D语义图,以捕获视角相关的遮挡与深度变化。

ID感知参与者编码则融合参与者位置、唯一ID与文本描述,通过傅里叶编码和T5文本编码器生成一致性的外观。


▲VideoDreamer的概览

视频扩散模型(VideoDreamer)基于空间-时间扩散变换器(ST-DiT)架构,结合ControlNet分支注入占用条件,生成多视角时空一致的视频。

最后,Closed-loop Feedback(闭环反馈机制)通过Ego Agent(被测自动驾驶模型)和Environment Agents(通过交通流引擎控制其他参与者行为)实现动态更新。控制信号驱动4D世界状态的迭代更新,形成“感知-决策-环境响应”的闭环。


▲生成的3D场景的定性结果。

在实验与结果方面,DrivingSphere在视觉保真度评估中表现出色。在nuScenes数据集上,OccDreamer生成的场景在FID和MMD指标上显著优于SemCity,而视频生成的结果在3D目标检测和BEV分割等指标上超越MagicDrive和DriveArena。


▲UniAD在100条预定义路线上的闭环评估性能

开环测试表明,DrivingSphere的生成数据更接近真实分布,而闭环测试验证了其有效的交互能力。


▲DrivingSphere在nuScenes验证集上自动驾驶模拟的视频生成保真度的定量比较。

总的来看,DrivingSphere的核心贡献在于建立了一种几何感知的闭环仿真框架,通过4D占用建模与生成式技术实现高视觉保真与动态反馈的统一。

此外,它支持城市级场景的无限扩展,并通过参与者ID编码与双路径条件控制解决了多视角视频生成中的外观漂移问题。然而,DrivingSphere也存在局限性,包括动态行为简化、极端场景覆盖不足和较高的计算成本。

三、DriveDreamer4D:利用世界模型提升4D驾驶场景重建

在自动驾驶领域,现有的闭环仿真技术主要依赖基于神经辐射场(NeRF)和3D高斯(3DGS)的传感器模拟方法。

然而,这些方法存在两个关键缺陷:首先,训练数据多为前向驾驶场景(如直行),导致在渲染复杂操作(如变道、加减速)时受到限制;其次,现有世界模型通常生成2D视频,无法有效捕捉动态驾驶场景的时空关联性。


▲DriveDreamer4D作者

这也为自动驾驶模型在驾驶决策的演进起到了重要的作用,理想AD MAX不同版本中博弈逻辑的细微不同也需要在具备时空一致性的环境中进行检验。


▲DriveDreamer4D通过整合世界模型中的先验知识来增强4D驾驶场景的表示

为了解决这些问题,DriveDreamer4D提出了一种融合世界模型先验的4D驾驶场景表示框架,其核心思路在于利用世界模型生成多样化的新轨迹视频,以弥补真实数据的稀疏性,并通过结构化条件和训练策略提升4D高斯泼溅(4DGS)的时空一致性。

DriveDreamer4D的创新方法包括两个主要模块。

首先是新颖轨迹生成模块(NTGM),该模块旨在自动生成复杂驾驶轨迹(如变道和加减速)并确保安全性。具体步骤包括将原始轨迹转换为自车坐标系,通过调整横向偏移和速度生成新轨迹,同时进行安全性评估以确保新轨迹在可行驶区域内且无碰撞。

此外,该模块还将新轨迹的3D框和高清地图(HDMap)投影到相机视图中,作为生成条件,最终基于这些条件生成符合新轨迹的视频。

其次,联合数据训练策略(CDTS)通过融合真实数据与生成数据,以优化4DGS模型。该策略通过时间对齐的“表亲数据对”将同一时间点的原始轨迹和新轨迹数据配对输入,并通过正则化损失(如感知特征)约束生成数据与真实数据的感知一致性。


▲DriveDreamer4D的整体框架。

在实验验证中,DriveDreamer4D使用Waymo开放数据集,选取了8个高动态交互场景进行评估。评估指标包括前景车辆的2D框IoU(NTA-IoU)、背景车道的IoU(NTL-IoU)、图像质量评估(FID)以及人工评分的渲染结果优劣。


▲不同新轨迹视角(变道、加速、减速)下NTA-IoU和NTL-IoU分数的比较

实验结果显示,DriveDreamer4D在NTA-IoU指标上相比基线方法(PVG、S3Gaussian、Deformable-GS)分别提升了22.6%、43.5%和15.6%;在FID指标上,在变道场景下相对优化了32.1%、46.4%和16.3%。定性分析表明,基线方法在变道场景中存在车辆位置错误和背景噪点多的问题,而DriveDreamer4D显著提升了细节表现。

此外,用户研究显示,DriveDreamer4D的平均胜率超过80%,在变道场景中达到了100%。


▲DriveDreamer4D在变道场景中对新轨迹渲染的定性比较

同时,消融实验进一步验证了CDTS的有效性,引入时间对齐和正则化损失后,FID降低了10%,NTA-IoU提升了2%。值得注意的是,生成数据不适用深度监督(由于遮挡问题),移除后效果更优。

DriveDreamer4D的贡献在于首次将世界模型应用于4D驾驶重建,通过生成多样化轨迹视频扩展了数据分布。


▲DriveDreamer4D在不同新轨迹视图合成中的用户研究胜率比较

同时,结构化条件控制(如3D框和HDMap)确保了生成视频的时空一致性,为自动驾驶闭环仿真提供了高保真动态场景,支持复杂操作的测试。

然而,该方法也面临依赖生成数据质量的局限性,若世界模型生成的视频存在偏差,可能影响重建结果。未来的研究方向包括扩展至多视角和长序列生成,结合物理引擎以增强动态交互的真实性。

四、ReconDreamer:通过在线修复提升动态驾驶场景重建质量

在自动驾驶的闭环仿真中,需要从新轨迹视角生成高精度的传感器数据。然而,现有的方法(如神经辐射场(NeRF)和3D高斯泼溅)在处理大幅动作(如多车道变换)时存在显著缺陷。


▲ReconDreamer作者

首先,数据稀疏性问题使得传统方法需要大量密集视角数据,当新轨迹超出训练分布时,重建质量显著下降。其次,时空一致性不足,动态场景中物体(如车辆和车道线)的形变和模糊问题尤为突出。


▲动态驾驶场景重建方法

此外,现有方法在处理复杂动作时表现不佳,例如在进行6米横向偏移或多次变道时,难以准确重建场景。为了解决这些问题,ReconDreamer框架应运而生,成为首个支持大范围动作(如6米横向偏移)的动态驾驶场景重建方法。

ReconDreamer的核心贡献包括DriveRestorer模块和渐进式数据更新策略(PDUS)。


▲ReconDreamer的整体框架

DriveRestorer模块基于世界模型的在线修复器,通过掩码策略优先修复天空和远景参数图片)区域,从而提升重建质量。

而PDUS则通过逐步扩展新轨迹数据,降低修复难度,提升大动作渲染的质量。整体框架包括动态场景重建模型(G),该模型基于原始轨迹数据进行训练,并通过G生成带噪声的渲染视频。


▲损失函数

随后,DriveRestorer结合3D框、高清地图(HDMap)等结构化条件,对生成的视频进行在线修复,最终得到高质量的重建结果。


▲用于训练DriveRestorer的修复数据集构建

在实验验证中,ReconDreamer使用了Waymo开放数据集,针对8个高动态交互场景进行了评估。

定量分析结果显示,ReconDreamer在NTA-IoU(车辆检测框重合度)上相较于基线方法(如Street Gaussians和DriveDreamer4D)提升了24.87%,在NTL-IoU(车道线重合度)上提升了6.72%,同时FID(图像质量评估)降低了29.97%。用户研究表明,96.88%的用户认为ReconDreamer在大动作渲染中优于DriveDreamer4D。


▲不同方法在各种新轨迹视角下的NTA-IoU、NTL-IoU和FID分数比较

定性分析结果显示,ReconDreamer有效消除了远景模糊和天空噪点,保持了车辆位置和形状的一致性,并确保车道线在大偏移下的平滑无断裂。

此外,消融实验结果表明,DriveRestorer的主干网络基于DriveDreamer-2的掩码版本效果最佳,而PDUS的步长设定为1.5米时性能最优,过大的步长会导致噪声累积。


▲不同骨干网络下的DriveRestorer的NTA-IoU、NTL-IoU和FID分数比较

ReconDreamer的创新点在于首次将世界模型与动态重建结合,实现了实时修复渲染缺陷,并通过渐进式训练策略解决了大动作渲染中的数据分布偏移问题。

这为自动驾驶闭环仿真提供了高保真传感器数据生成方案,支持复杂场景(如紧急变道和多车交互)的可靠测试。


▲ReconDreamer在3米处变道和6米处变道的新轨迹渲染的定性比较

然而,ReconDreamer也存在一些局限性,如在线修复机制增加了训练时间,且目前仅在Waymo数据集上进行了验证,未来需要扩展至更多复杂环境(如雨天和夜间)。

此外,实时性优化也是未来的研究方向,可以探索轻量化DriveRestorer的部署以满足实时仿真需求。

结语:自动驾驶研究仍是行业前沿

就在今天,理想汽车创始人、董事长、CEO李想在社交媒体上表示,自从特斯拉的全自动驾驶(FSD)功能入华后,经过对比,理想AD Max V13的接管次数明显少于特斯拉FSD,表现更好。

李想还提到,理想AD Max V13基于1000万条数据进行训练,并于2月27日全面推送,得到了用户的好评。


▲理想汽车创始人、董事长、CEO李想评论自驾智驾和FSD

而这样的体验背后,和理想汽车在一线量产的科研能力是分不开的。​

理想汽车在本次会议中展现的4项研究成果,聚焦自动驾驶仿真领域的关键痛点,通过技术创新为行业提供了新的解决思路。

目前来看,自动驾驶仿真正从以NeRF/3DGS(神经辐射场/3D高斯)为核心的几何重建1.0阶段向动态交互融合生成式AI与世界模型的2.0阶段加速迭代。

不难看出,CVPR 2025的激烈竞争再次印证了计算机视觉与自动驾驶技术的深度融合趋势。

未来,如何平衡生成质量与计算效率、扩展多传感器仿真能力,或将成为车企角逐自动驾驶技术制高点的关键赛道。

ad1 webp
ad2 webp
ad1 webp
ad2 webp