文丨李安琪
编辑丨李勤
过去两年,AGI(通用人工智能)极速经历了一轮资本轰炸与选手离场,但其“致命引力”仍在持续虏获信徒。2025开年,理想汽车CEO李想就喊出了“未来汽车将是硅基家人”的设想。汽车与机器人行业的高墙边界,正在逐渐瓦解。
智能驾驶公司Momenta创始人曹旭东也认为,AGI是每个做AI的人的终极梦想。如果说智能手机iPhone的出现是一道千米高巨浪,那他认为,比iPhone更具颠覆性的机会是通用机器人。
但曹旭东的入场时间不是当下,“我们做(机器人)的话可能会是2027、2028年的事情。”眼下更焦灼的战场,还是智能驾驶的市场份额角力。
曹旭东判断,今年高阶智驾会规模起势,2026年智驾行业就会胜负分晓。
“今年城市NOA(即城市领航辅助驾驶)功能会下探到15万元车型,今年底、2026年初10万级车型也会搭载城市NOA。”
这是已经跻身头部梯队的Momenta,不能松懈的时刻。电动化狂飙后,当下中国车市的竞争重心已经向智能化倾斜。去年开始,华为、小鹏、理想等公司轮番出击,从大战“智驾全国能开”到攻顶“端到端”。
Momenta是为数不多、拥有“端到端”量产能力的智驾技术公司。
从2022-2024年,三年间Momenta量产的高阶智驾搭载车型数量分别是1款、8款、超20款。“今年量产规模可能有数倍增长。”曹旭东说。
近期,我们在Momenta总部苏州见到了创始人曹旭东。对于Momenta在端到端智驾竞争中快速出圈,他接连表示,“我们只是做的足够早。”
Momenta创始人曹旭东 图源官方
“端到端”主张用一个大模型来贯通智驾的感知、预测决策、控制环节,从过往工程师手写规则告诉车辆如何行驶,到使用AI大模型、海量数据、云端大算力,让智驾具备自我进化能力。
曹旭东告诉36氪汽车,内部很早尝试将AI模型融入智驾,比如2019年开始用Transformer来做预测、路径规划等,2023年初量产两段式端到端,2024年进化到一段式端到端方案。
在工程能力方面,Momenta也早早瞄准了量产智驾的机会。2021年以来陆续与智己汽车、比亚迪等车企深度合作。
曹旭东坦言量产过程的不易,“跟中国车企合作起码‘敲门’要敲3年,国际车企‘敲门’要敲5年以上,真正量产时间可能需要10年。”比如Momenta跟某跨国车企从2017年开始接洽,到通过供应链准入、真正量产落地,中间花了8年时间。
他认为,先进入车企量产节奏的公司一定能更早获得量产经验,拿到更多数据,然后快速迭代。比如在量产过程中,Momenta探索出数据驱动模式,满足端到端的进化需要;设计了一套自动化工具链来适配不同车企的不同硬件需求。
而在配套车企的量产速度上,Momenta可以做到:从开始合作到上车交付,硬件部署加上算法调试只需三个月。
这些都成为Momenta立足头部智驾公司的“原始积累”,但行业竞争和挑战也日趋激烈。
曹旭东对此表示,智驾越往后越难,当下一年投入小几十个亿,就能做到第二梯队或准第一梯队水平,但再往后,要几百亿才能做到同样水平。“差距可能在拉大,而不是在缩小。”
考虑到“端到端”是一场长期竞赛,Momenta做好了投入巨量资源的准备。曹旭东是,因为中国的道路数据丰富度、复杂度远比欧洲、日本道路高。“有时候我们开玩笑说,我们golden data(黄金数据)可能比特斯拉多。”
曹旭东认为,如果要做到量产L4自动驾驶,每年的研发投入至少是百亿甚至几百亿,其中费用大头将是云端算力。
“现在瓶颈不在于原始数据入口,而在于云端算力太贵,有没有那么多钱去烧。”
“端到端”技术之下,Momenta正把量产智驾中形成的“时间壁垒”,转换成“资源壁垒”,这是留在终局牌桌上不可或缺的筹码。同时,Momenta也还在冲刺Robotaxi业务。
Momenta计划在2025年实现完全无人驾驶——Robotaxi(无人驾驶出租车)。“我们跟行业不一样,会复用量产车传感器和域控去做Robotaxi,毛利是正的。我们不会烧钱扩规模。”曹旭东说。
以下是36氪汽车与Momenta创始人曹旭东的对谈,内容略经编辑:
「谈投入:高阶智驾已经引爆,后续研发投入要百亿」
36氪汽车:2024年新能源车渗透率过半,您觉得2025年智能驾驶渗透率会有多高?
曹旭东:中高阶智驾渗透率应该有10%-20%。
36氪汽车:头部车企要标配智驾,作为上游供应商,你们的业务会有怎样量级的增长?
曹旭东:量产规模可能有数倍增长。
36氪汽车:高阶智驾车型会下探到什么价格区间?
曹旭东:2025年我觉得能探到15万元左右,2025年底、2026年初可能10万级也会有城市NOA。另外,高阶智驾BOM成本在快速往下走,智驾体验和安全会有10倍、百倍甚至千倍提升。高阶智驾会逐渐变成车企的标配。
36氪汽车:你们内部看到的智驾实用性数据是怎样的?
曹旭东:OEM(主机厂)不停把高阶智驾从30万的车下放到20万、15万逐渐到10万的车,说明消费者愿意买单,车企才愿意买单。从我们后台数据来看,用户基本50%里程都在使用智驾。
36氪汽车:智驾很火但很多智驾公司还没赚到钱,这种局面什么时候会改变?
曹旭东:自动驾驶研发投入很大,未来会更大。如果要做到量产L4,每年的研发投入至少是百亿甚至几百亿。算一下,如果100万台车摊下来,单车智驾成本是1万人民币;如果1000万台车,单车大概1000块。如果要打平研发投入,规模得在几百万台车。
2024年是高阶智驾的引爆点,规模还没真正起来。最终要盈利的话,一定要做到规模效应,玩家变少后,营收规模覆盖研发成本才能盈利。
36氪汽车:智驾行业什么时候洗牌结束?留在牌桌上需要哪些技能?
曹旭东:差不多2026年底会结束,胜负会有分晓。留下来的话,可能有几方面。第一,好的技术和产品,这背后是强大的组织能力和研发体系,这是最重要的必要条件。
第二,还是要有先发优势,尤其是量产自动驾驶,跟车企合作是要敲门敲三年的。如果这家车企,现在还没有机会进去,后面再进非常难。先进的人一定能更早获得量产经验,拿到更多数据,然后快速迭代。
36氪汽车:每年百亿级投入其实不小,这笔钱从哪里来?主要花在哪里?
曹旭东:大部分肯定是收入。我们的研发占比会非常高,我们不是硬件公司,所以毛利润也会很高。一辆车卖出去,就是完整的软件license(软件授权费用),毛利润跟微软卖Office是一样的。研发投入巨大,但一旦研发出来,margin cost(边际成本)几乎就是0。
主要花在人员和云端算力,越往后算力越占大头,2027、2028年比人员投入会显著很多。
36氪汽车:你们今年算力砸了多少钱?
曹旭东:2024年智驾才刚刚爆发,2025年规模会起来。我们到2027年差不多会有数十亿元算力投入。
「谈端到端:瓶颈不在于数据量,而在于黄金数据与算力」
36氪汽车:Momenta在端到端量产上做得很快,你们总结过大概做对了哪些方面吗?
曹旭东:根本原因还是做的早。Transformer是2018年出来的,我们2019年就用来做deep learning prediction(深度学习预测),2020年做deep learning planning(深度学习规划),2023年初量产了两段式端到端,只不过那时候没有这个名词。
2024年上半年,我们把一段式端到端做出来。这背后还是人才积累、研发体系积累。端到端其实就是用一个模型做摄像头输入,然后轨迹输出。为什么最近才火?因为方向正确但成功路径可能万里挑一,如果之前没有积累,很难找到正确路径。
36氪汽车:您认为做端到端的挑战是什么?用规则为模型兜底难吗?
曹旭东:我觉得,用规则兜底对端到端来说可能是错的。因为有各种各样的corner case端到端模型搞不定,所以才需要兜底。但照理来说,端到端模型有能力搞定corner case,为什么不在端到端模型里面解决问题?
我一直觉得rule base跟端到端是互为冗余关系,不能说是兜底。代码越来越少,你不可能用越来越少的规则代码,去给端到端大模型去兜底。
兜底意味着有数百万个、各种各样的corner case没解决,用规则去为数百万个长尾问题兜底不现实。不然的话,光靠这些兜底的代码本身,就可以实现L4了。
36氪汽车:那端到端的技术进化已经一马平川了吗?
曹旭东:端到端仅仅是开始。训练数据怎么来?这里有大量data engineering(数据驱动)工作,好多人对数据驱动的认知是不到位的,觉得就是写数据、做数据,脏活累活不愿意干。如果这样想,端到端根本不可能做好。
一定要把 data engineering当成是一件比software engineering(软件工程)更重要、更需要体系化建设的事情。就像做芯片,芯片原料不就是沙子,有沙子不就可以造芯片了,这一听就是笑话。芯片原料硅的纯度要9个9~12个9,把沙子提纯是一套工业体系。同样,给端到端模型更好的数据,也需要一整套体系去支持。
36氪汽车:现在数据驱动闭环已经达到理想效果了吗?
曹旭东:还要再提升,因为L4对数据驱动这套飞轮体系要求非常高。L4有长尾问题,可能1万公里或者10万公里才会发生一次,怎么去验证?
如果靠自有车队去跑路测,一周才跑几万公里,跑一周可能都遇不到一个case。然后发了新版本,怎么知道corner case变好了还是变坏了。所以要通过海量量产车的影子模式,去收集数据去验证、做闭环仿真。
36氪汽车:端到端对于数据的渴求是越来越大的。有些智驾供应商似乎拿不到合作车企的数据,你们怎么解决?
曹旭东:说明供应商跟车企的信任关系没有做到位。我觉得关键在于,智驾公司能不能给用户创造价值,能不能给客户创造价值。天下没有白吃的午餐。
我们跟车企客户达成的共识是,车端筛选corner case(长尾场景),哪些场景做的还不够好,我们识别、回传,用于模型训练和学习,有的放矢地去提升模型能力和产品体验。
36氪汽车:这种数据共享模式是你们和每个车企都可以达成的吗?
曹旭东:对。
36氪汽车:如果车企不愿意分享数据,会成为合作门槛吗?
曹旭东:这不是门槛,我们很佛系的。如果客户愿意分享数据就一起合作,我们的数据处理都是标准化、自动化的。
如果车企觉得数据是资产,不愿意共享也没关系,我们的数据量已经很多了。现在的瓶颈不在于原始数据入口,而在于云端算力太贵,有没有那么多钱去烧、去训练数据。
36氪汽车:你们跟某个车企合作train(训练)的模型,可以快速复制到跟其他车企的合作吗?
曹旭东:没问题。现在高阶智驾传感器的方案不能说完全一样,但相对收敛。如果以视觉方案为主,传感器通常是11个摄像头,安装位置虽有差异但不大。
但软件要通用,这不是天然就有的,一定要有很好的软件算法架构、研发体系支撑才能做到。
36氪汽车:你们现在是智驾供应商头部玩家,接单越来越多,怎么让效率最大化?
曹旭东:我们的软件算法架构已经迭代到第五代了。其实大概六七年前,我们就考虑到不同客户有不同需求,不同车型有不同硬件配置,所以要设计一套软件架构能够兼容不同需求,且一定要设计成可自动、标准化的流程。
36氪汽车:所以业务量增加,也不用增加太多人手?
曹旭东:对,我们2022年量产一款车,2023年大概8款车,2024年累计20多款车交付。但人数都差不多,接近1300。2027年、2028年人数会到增加到2000左右,不会大幅增加。
36氪汽车:电池行业会管控上游供应链来优化成本,智驾行业会有类似做法吗?您对于供应链降本的思考是什么?
曹旭东:软件算法没有那么多供应商。整个自动驾驶系统就是传感器、计算域控。传感器相对成熟,客户来做采购,我们能做的就是提升软件算法能力,减少对传感器数量的依赖。
比如毫米波雷达,一开始大家用5个,我们量产车可以做3个,2025年用1个也能做得很好。技术创新就是帮客户降本。
我们判断,能实现城市NOA的自动驾驶域控,会从当前8000块钱,在2025年底、2026年量产车上能够降到2000多块钱,下降5000多。
36氪汽车:车企自研芯片还有必要吗?
曹旭东:要看多大规模,如果一年卖几十万台车的话,没太必要。
36氪汽车:做芯片和做算法哪个更难?
曹旭东:软件算法的门槛可能更高一些,芯片相对容易。芯片其实相对成熟,难点在于周期长。
考验有两点:第一,产品定位,做芯片快的话两三年,慢的话三四年,所以要预判两三年或三四年后的市场到底如何,如果产品定位错了,哪怕芯片没有一点技术问题,还是卖不出去。所以要对未来市场有精准判断和把握。
第二是架构能力,芯片架构设定后,其实跟造车一样,都有成熟IP、成熟开发流程和验证、流片流程,都可以复用现有研发体系和供应链去做。但智驾软件所有东西都是新的。
「谈行业:跟华为“竞”更多,“争”的东西不多」
36氪汽车:华为也在不断签单,怎么看与跟华为的竞争?
曹旭东:还是有差异化。我们跟华为更多是互相学习、共同提高的关系。我们很难进入华为的市场,华为也很难进入我们的市场,彼此在技术、产品上是良性竞赛,“争”的东西不多,“竞”的东西更多。
36氪汽车:智驾出海是大趋势。关于出海,你们有什么样的策略?
曹旭东:两方面,一是跟着中国OEM出海,我们是唯一一家在全球做到城市NOA的自动驾驶公司。在日本、欧洲,我们的城市NOA都跑起来了,但还不是量产车。
另外,我们跟一些国际客户,把欧洲几十个国家的自动驾驶准入标准全部都考完试了,已经拿到认证了。比如欧洲和日本客户的海外市场智驾,我们2026-2027年可以量产。
36氪汽车:海外市场对于智驾的需求大吗?
曹旭东:坦率来说,现在需求还没起来。我的观察是,海外市场比中国市场晚个三年左右,稍微滞后,2024年中国高阶智驾的引爆年,2027年可能是海外市场的需求高点。
36氪汽车:去海外市场的话,你们需要做哪些准备?
曹旭东:从算法架构、数据架构都要考虑这件事,主要还是模型训练。在中国训练出来的foundation model(基础模型)怎么适应欧洲或海外市场,基础设施怎么建设。
说个特别有意思的事情。我们发现,当中国的foundation model训练足够好的时候,哪怕没有额外适配,在中国能跑100分,在欧洲去或日本大概也能跑70-80分。
我们后来分析,第一,大模型有比较强的泛化能力,第二中国的数据足够有挑战、足够丰富。在海外遇到的corner case,在中国大概率也能遇到。虽然不是100%一样,但有很高相似度。
中国数据的丰富度、复杂度比北美高很多,好多客户都说是10倍挑战、10倍复杂度。按5倍复杂度来看,15万台车乘以5,有时候我们开玩笑说,我们goldern data(黄金数据)可能比特斯拉多。
FSD入华是一件好事情,会把高阶智驾认知度打开。特斯拉FSD、华为和我们,会共同拉高智驾产品标准,实际上这是良币驱逐劣币的过程。
「谈量产:车企合作敲门要敲3年,合资车企要5年」
36氪汽车:刚提到“敲车企的门要敲三年”,你们敲得比较早,能聊聊心路历程吗?
曹旭东:中国车企敲门要敲3年,国际车企敲门要敲5年以上。当时有个汽车行业师兄跟我说,国际车企是非常好的客户,但量产可能得10年。
2017年是互联网创业热潮,一个产品从有想法到上市可能就几个月时间,汽车量产要5-10年,我们感觉非常不可思议。
36氪汽车:你们花了多长时间进入合资车企供应链?
曹旭东:时间很长,面向量产的开发体系建设是从2020年开始。之前是一些POC(概念验证)项目,对供应商的研发体系考察和要求并不特别高。一旦他们把你当成量产伙伴去培养,对于整体软件开发体系流程要求很高,会不定期考察软件开发流程,跟传统零部件审厂一样。
36氪汽车:高阶智驾功能需要不断更新迭代,你们怎么说服合资车企?
曹旭东:就是持续测试、发版。国际OEM非常严谨,做决策的流程很长。他们虽然有大老板,但他们更倾向于one voice(一个声音)决策,从上到下、从左到右,大家一致决策,而不是大老板“啪”拍板,底下人咣咣全部跟着干。
他们的决策机制是,一个大集团里跟高阶智驾相关的几十个人,关键决策人可能有几个到十几个,要形成一致意见。这个时间周期比较长,每个人都会提出问题,有些问题需要回答,有些问题需要开发做验证,然后才能得到结论。所以one voice的形成时间,短的话几个月,长的话可能一两年。
36氪汽车:你们跟一些车企合作的是纯视觉智驾,未来高阶智驾还需要激光雷达吗?
曹旭东:还是有用,比如进出隧道、没有路灯等暗光环境下,激光雷达的能力更全面。尤其是对安全要求很高的场景,按照L4标准的话,激光雷达的冗余安全作用还挺显著。
但完全看车企需求,有没有激光雷达对我们来说,工作量都差不多。
36氪汽车:合资车企的智能化开发节奏会很激进吗?
曹旭东:还可以,我们的量产交付经验非常成熟,应该是行业里真正走完0~1,又走完1~10,现在处在10~100的自动驾驶公司,是唯一一家有多车型、多个不同芯片平台,多个不同传感器平台的高阶智驾量产交付公司,交付速度挺快的。比如客户从工程样车到量产要三个月,我们硬件部署加上算法调试也只要三个月。
36氪汽车:最早你是AI出身,现在要花8年时间去交付,会有落差吗?
曹旭东:我们不把交付看成交付,而是带着发展主线的思路去做交付的。比如交付过程中,不是靠人而是靠一套流程和体系去交付。如果有问题,我们会识别体系和流程哪里需要优化,举一反三解决问题。
如果智驾在某些场景做的还不好,我们主线产品升级之后,可能a客户爆出来的问题,b客户也跟着受益。我们的要求是,即便是在一线,80%责任是承担主线工作,20%是适配产品、做差异化的工作。
36氪汽车:现在AI进化特别快,你们怎么把新技术引入进来?
曹旭东:没有统一标准,更多是研发leader对于技术的洞察。有些是我们探索,有些是引进行业新动态,做些实验看看效果,有就用起来,没效果就先放一放。
这特别考验研发一号的位洞察力。一是对问题本身的洞察力,识别问题才知道用什么药;第二,只有对技术本质有深刻理解,才知道技术对哪些问题起关键作用。技术一号位洞察力好的话,能够极大降低公司的技术探索、试错成本。
就像2020年我们做数据驱动,行业很多人说根本不可能。但我们认为,问题能解决但是不太容易解决,需要构建一套体系去解决。
「谈AI:不会烧钱做Robotaxi,2028年L4爆发」
36氪汽车:您现在精力花在哪方面多一些,销售端还是技术产品?
曹旭东:不同阶段重心不一样。2021-2023年我们工作服背后印的是“三大法宝”(注:Momenta的三大法宝是指智驾量产工具,包括算法框架、算法适配器、量产开发套件),更多是聚焦车型量产。
2024年我们工服口号变成了“十年挽救百万生命”。我们产品上量速度很快,这个时候要考虑,产品给用户创造的最核心价值是什么?智驾最核心的价值还是安全,所以我们把这作为十年愿景。
2025年我们要实现完全无人驾驶——Robotaxi(无人驾驶出租车)。我们跟行业不一样,会复用量产车传感器和域控去做Robotaxi,毛利是正的。我们不会烧钱扩规模去做demo,讲故事,我们希望在赚钱的情况下扩规模。
36氪汽车:你们要怎么量产Robotaxi,自己买车建车队?
曹旭东:打标杆的话是建车队,后续推开会是加盟模式。1000台车以内都是我们自己运营,把标杆模式打通后就搞加盟。
加盟的不一定是车企,加盟可能是各地原来的出租车公司、出行公司,可能跟滴滴这种平台也有很好合作机会。
36氪汽车:Robotaxi等于L4或者自动驾驶吗?会有人觉得Robotaxi难度比L4低,只要安全到达但可能超车或者选路表现不那么好,也可以接受。
曹旭东:也不是,看谷歌Waymo,Robotaxi最近一周接近20万单,单量增速明显更快。原因我觉得还是Waymo体验好,更像老司机。
36氪汽车:有人觉得Waymo的模式可能跑不通,您怎么看?
曹旭东:Waymo有可能跑通,因为谷歌足够有钱,一年利润是千亿美金级别,一台车成本按百万人民币来算,一万台车才100亿,就是十几亿美金。如果是10万台车,成本是100多亿美金,只占Waymo一年利润的百分之十几。
只要Waymo觉得技术成熟了,靠资金去扩规模,他们是烧得起的,但国内很多公司可能不太现实。
36氪汽车:你们一台Robotaxi量产车的成本大概是多少?
曹旭东:一辆中级车的价格,整车包括智驾成本在内。要是能够实现完全无人,运营毛利润就是正的。
我们的L4不是demo性质,可能是几十万辆车,甚至未来几百万辆车,全国都能开。做几百台Robotaxi和1万台车的难度完全不一样,安全性要提升100倍。我们大方向和路径相对清晰,当然过程中可能有很多小路要探索、试错。
36氪汽车:您怎么看多模态大模型跟端到端的结合?这是通向L4的路径吗?
曹旭东:我们也在探索。
36氪汽车:你们对于L3级智驾有哪些探索?
曹旭东:已经在做了,量产时间是2026年下半年。难点不在于车硬件本身,还是安全。L3的安全性要求跟L4是一样的,我们对L3的要求是10万小时才一次出现事故,人大概是不到1万小时出现一次事故。车比人开车要安全10倍,还蛮挑战的。现在L2人车共驾情况下,我们可以做到比人安全6-7倍。
36氪汽车:现在也有自动驾驶公司在搭建AI底座,衍生其他AI业务,Momenta会有类似想法吗?
曹旭东:通用机器人可能是每个做AI的人的终极梦想。短期内我们不会做,我们做的话可能是2027、2028年的事情。
自动驾驶既有感知智能,又有认知智能,比人的通用认知智能要更容易实现,我们觉得自动驾驶是很好的AI切入点,去理解什么是intelligence(智能)并把它做出来。
如果自动驾驶认知智能、感知智能更强,那就变成了通用机器人。我认为,智能手机iPhone是1000米高巨浪,智能汽车机会也很大,但只是几百米高的巨浪,比iPhone更具颠覆性的机会是通用机器人。
36氪汽车:2027年做机器人之前,自动驾驶已经完全实现了吗?
曹旭东:我的判断是,自动驾驶在2027、2028年会逐渐达到像2024年L2+的爆发一样,2028年是L4自动驾驶的拐点或者爆发点。
不过具身智能的物理硬件还处于比较早期阶段,比如手、腿上关的控制很难做,通用机器人要不要长得像人,要不要手,这些还很发散,还要三四年时间,机器人物理硬件才能相对收敛。自动驾驶不一样,车身硬件非常成熟。
自动驾驶对安全性要求很高,通用机器人的通用性要求极其高。整体来说,我觉得自动驾驶和通用机器人的能力交集大于80%。