(图片来源:智元机器人)
随着2022年 AI 聊天机器人ChatGPT风靡全球,“具身智能”和人形机器人逐渐成为备受瞩目的前沿技术领域。
与传统 AI 相比,“具身智能”更注重通过与环境的实时交互来获取信息,并基于这些信息进行思考、决策和行动。同时,“具身智能”还可通过经验积累和持续学习,提升行动和操作技能。
实际上,“具身智能”和人形机器人领域近期关注度颇高,也有很高的市场前景。
公开数据显示,2024年,中国人形机器人市场规模达到约27.6亿元,并有望在2030年成长为1000亿元市场,而预计到2035年,有望达到3000亿元规模。截至目前,小米、小鹏、蚂蚁等数十家车企和科技大厂都已入局“具身智能”和人形机器人赛道。
近期,智元机器人研究院执行院长、具身业务部总裁姚卯青对钛媒体AGI表示,自动驾驶与“具身智能”非常不一样,严格意义上来讲,两者在底层硬件、框架和软件还是有复用的,但 AI 模型、容忍度等层面非常不一样。
姚卯青毕业于清华大学电子工程系,曾在Waymo、蔚来汽车等公司担任重要技术职位,如今,姚卯青担任智元机器人Genie业务部总裁、具身研究院执行院长,承担了AI技术开发及研发工作,确保智元在本体基础上具备强大的软件能力,能够始终保持在人形机器人全球第一梯队。
成立于2023年的智元机器人,是当前国内人形机器人赛道头部企业之一,其创始人之一彭志辉是坐拥250多万粉丝的B站UP主“稚晖君”。
公司成立不到1个月,智元就完成天使轮融资、年内更斩获4次融资,成立仅6个月就发布首款人形机器人,2024年还发布五款商用人形机器人新品,并且去年底开源百万真实机器人数据集,以及年初率先达成1000台机器人量产等,引发行业关注。
如今,智元机器人共有三条主打产品线,分别是远征、Genie和灵犀。预计2025下半年,智元机器人会发布一款面向机器人发烧友的产品X2。
钛媒体AGI独家获悉,领先具身智能机器人公司“智元机器人”将于3月10日发布全新的智元具身基座大模型Genie Operator-1 (GO-1)。这将是全球第一个基于大规模、高质量自有数据,基于自有机器人本体训练并部署的第一个机器人基座模型。
那么,车企为何要做人形机器人?未来“具身智能”行业如何发展?人形机器人如何形成生产力价值?围绕上述话题,姚卯青近期与钛媒体AGI展开深度对话。
在姚卯青看来,机器人和“具身智能”技术需要真机训练场,并且必须要结合强化学习、大模型等技术能力,从而提升整个人形机器人软硬件技术发展。
事实上,DeepSeek热潮之前,智元团队就已经开始做强化学习,也是全球可能唯一在真机强化学习上面做通的团队。“真实世界价值是最高的。”
姚卯青对钛媒体AGI表示,利用 AI 大模型,能够助力机器人操作上手能力,从而加速进入工厂、零售、服务业等场景工作,长期还能进入家庭。“这才是机器人价值被充分发挥的时刻。”
谈到最受关注的9.9万元机器人话题,姚卯青指出,9万9的机器人只具备基础运动能力,在本体、硬件、算法都还没有收敛的情况下,大家急着“卷”价格战,没有什么意义。因此,姚卯青呼吁人形机器人产业需要看产品竞争力,如果都达不到给用户创造价值的时候打9.9万元,只会把整个行业变成一个很不健康的状态。
姚卯青强调,未来1-2年,人形机器人能够在局部工业场景应用落地,机器人走进家庭还需要5年左右的时间。此外,机器人实现像人一样有通用能力的物理世界AGI(通用人工智能)还需要5-10年时间。
智元机器人研究院执行院长、具身业务部总裁姚卯青
以下是姚卯青和钛媒体AGI之间的独家对话编辑:自动驾驶和“具身智能”需不同模型
钛媒体AGI:现在智元机器人主要有三条业务线远征、Genie和灵犀,所以内部是怎么分配业务的?
姚卯青:我们现在有三个产品线,一是双足机器人,一是轮式双臂机器人,还有一个是新成立的小的机器人,只有1米3左右。面对商用场景的双足人形机器人远征A2系列;轮式双臂Genie,主要是面向通用具身操作的轮式双臂机器人G1,这些产品都在对外售卖。此外,还有一条用于拓展家用场景、科研及极客的小型人形机器人灵犀产品线,我们的商城也在售卖。
钛媒体AGI:上次我和智元的交流是“机器人0元购”时期,当时稚晖君发布智元5款商用人形机器人,并且透露2024年人形机器人超过200台左右。那么到了2025年,智元新的规划是什么?
姚卯青:去年我们已经超额完成,1月6日已经下线1000台。今年公司目标是10倍营收。因为是在2024年10月开始量产交付,而今年时间更长,另外本身有新的市场和新的产品扩展,所以今年我们目标更大。
钛媒体AGI:近期,特斯拉、小鹏、小米等多家自动驾驶、新能源车公司都计划或正在做“具身智能”以及人形机器人,您如何看待这个趋势?
姚卯青:这主要是资本原因。目前新能源汽车竞争惨烈,已经过了高速增长期,而当下“具身智能”大模型又很火的话,会成为资本追逐的新一个风口。
实际上,马斯克的特斯拉也很重视“机器人”,因为你看特斯拉的市盈率,是丰田、大众的几十倍,但特斯拉和丰田的毛利率相当。丰田一年卖1000万辆车,特斯拉卖不到两百万辆车,而且已经停止增长了,那么他怎么办?所以他(马斯克)就说叫做“具身智能”。
当然,我觉得特斯拉确实是在做“具身智能”的,行业内自然会有“跟风”,特斯拉都转型了,这些车企肯定也要转型。但是,我觉得这也不是没有道理,因为“具身智能”与车的很多底层工程能力、软件、制造供应链等都是有很多互通的地方。所以,做车的人/企业来做“具身智能”是更合适的。
所以,我其实是比较敬畏这些从车企转型做机器人的“玩家”。
钛媒体AGI:无论是Waymo,还是其他自动驾驶公司,大家之前目标都是做L4,当前却只能是L2+,这是否也是大家转向“具身智能”的原因之一?
姚卯青:对,现在来讲,L4、L5离商业化还是比较远、比较难的。
包括Waymo在旧金山落地,虽然市场份额还不错,能超过当地第二大的打车公司,但是仔细想,那也只是在旧金山,而旧金山太小了,只有上海的2%的面积和人口,路况也相对有规律。但Robotaxi在中国大面积商业化其实是很难的,因为它依赖高精地图,你只能在很小的区域内,才有可能每天实时维护地图上每一个微小的变化。
一旦自动驾驶没有地域限制放开了,甚至是一个有限制的大城市,几乎在中国这种大城市几乎都是不可能的。
所以,(实现L5自动驾驶)主要问题就是,最终肯定是依赖单车智能,一方面,单车智能达不到这么高的一个程度;其次,即使当前单车智能能达到一个不错的效果,但Robotaxi成本不可控,它必须依赖高精地图、依赖激光雷达、依赖高算力等。当然,特斯拉称只做纯视觉,不依赖地图与激光雷达,不过其自动驾驶还达不到完全类人水平,可能行驶几公里到几十公里就需人工接管一次。国内不少同类产品在城市中行驶几公里便要接管,如此看来,使用体验还不如用户自己开车。
那就是说,(自动驾驶)商业上并未完全商业闭环,收费的话那就更差得远了,市场需要成本低、体验好、不用接管的自动驾驶技术,都做到还比较难。
钛媒体AGI:现在您对哪款辅助驾驶系统比较满意?
姚卯青:我开的是特斯拉的。我认为,特斯拉跟国内还是体验上有不同的,就是从拟人性这个角度来讲,它是对人的,所以感觉上它上限好像比较高,但是确实可能有一些所谓水土不服的原因,目前下限也比较低。比如,特斯拉辅助驾驶会像人也一样“压线”,它也如此,但是很多地方又做的不那么严谨的一个系统。大多国内辅助驾驶方案,我理解还是偏向上一代系统,“大模型端到端”还是伪概念,主要还都是后处理,也谈不上billion参数大模型了,都属于传统CV、在训练集分布上过拟合的小模型。
钛媒体AGI:之前您说具身智能并非“新瓶装旧酒”,其为传统机器人注入了新的生命力,那么,在您看来,具身智能对于自动驾驶是“新瓶装旧酒”吗?
姚卯青:自动驾驶与“具身智能”应该还是非常不一样的,两个产品和技术都可能不是一个“瓶子”了。
大家会说,自动驾驶是“具身智能”的一种形态,但其实严格意义上来讲,自动驾驶与“具身智能”在 AI 模型这一块基本不一样,底层硬件、框架和软件还是有复用的,但模型角度来讲,非常不一样。
比如,车的硬件只有两个自由度,而且在2D平面上运作,但机器人动辄几十个自由度,存在于3D空间中;然后车是严禁接触的,机器人是必须接触的。
此外,安全性层面,高速动态场景下,车对错误的容忍度非常低,因为安全和生命是绝对不能妥协的,自动驾驶不可能上带幻觉的 AI 大模型,必须是小模型过拟合再加一堆后处理,导致它用传统 AI+规则实际落地。但机器人不太一样,你还没有在非常危险的一些场景大规模落地,更多可能在一些静态的场景,甚至是无人工厂里,他可以去容忍错误,也可以容忍较为长的这种推理,但车的控制要达到50赫兹的这种物理频率控制,导致这个模型不可能去推理一次几秒钟,机器人不一样,它还是一个低速状态,对于响应速度有时候没有那么苛刻,因此它确实需要用大模型来达到一个更高的上限。
所以,车上的都是上一代 AI 1.0机器视觉和感知,几百万、几千万参数规模,而机器人是真正的大模型,数十亿参数上去,经过互联网数据预训练的这种视觉语言大模型,它具备了整个基础的通用推理认知,还有一些规划和纠错能力。
钛媒体AGI:这一轮 AI 热潮中,清华系占据一大部分。您怎么看待很多清华人在 AI 领域的表现?
姚卯青:清华是理工科最强的学校,而且又有像姚期智老师这样的世界顶级学者坐镇,有很好的土壤。至少从海外回来的一些顶尖的人才回国从事教职,我觉得清华肯定还是他们的首选之一。
中美人形机器人没有差距
钛媒体AGI:上一次我见到您还是在智元机器人和阶跃星辰的合作上,能否简单聊聊你们的合作细节?
姚卯青:那天是刚刚开始一个简单的签约合作仪式,双方更多合作细节还在探讨过程中。目前我们可以看到的是,阶跃星辰确实有国内一线的这种文本模型以及多模态大模型的能力,比如他们现在的文本推理模型可以媲美DeepSeek-R1的效果。
不过,推理模型现在很多都是文本,对机器人来讲其实是没什么用的。因为机器人是需要多模态的,它需要有视觉的输入,要在有视觉又有语言指令的情况下,再去理解空间,再去规划任务,甚至规划一些动作轨迹等,那个是跟文本还挺不一样的,不是一个纯逻辑思维。因此,我们比较期待他们即将发布的视觉推理模型,这应该是国内目前为数不多有多模态的这种视觉推理能力的,对于机器人复杂规划的大脑是很重要的。
钛媒体AGI:目前瞄向AGI主要有两派,一是先做语言模型-视觉理解模型-再到AGI;另一种像李飞飞提出的“空间智能”,或者是所谓“世界模型”,再到AGI,您觉得哪条路比较可行?
姚卯青:李飞飞团队的“空间智能”,其实跟“具身智能”还没有特别直接的关联。她们还是属于3D重建类型,没有很硬核地做机器人应用,有一些家装、设计等纯3D重建一类。真正的“空间智能”其实是要能够去生成式预测未来,而不仅仅是预测视频这类2D画面,应该能够预测机器人的动作轨迹、3D的动作轨迹且生成之后,根据周围的环境和机器人交互所发生的自查,符合物理规律的变化,这个是非常难的。
我们在今年1月初发表了一篇EnerVerse的论文,就是机器人的世界模型。同时,NVIDIA Cosmos目前也在使用我们的数据集让它变得更能理解机器人和物理规律。
我们这次发布的基座模型,其实跟世界模型还不太一样,它更多是VLA(Vision Language Action),但它不是一个简单的VLA,还是有很多感知、动作、视觉等新的技术和模型能力。
(注:今年1月,智元机器人团队提出了EnerVerse架构,通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse 深度结合具身任务需求,创新性地引入稀疏记忆机制与自由锚定视角(FAV),在提升 4D 生成能力的同时,实现了动作规划性能的显著突破。实验结果表明,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。论文地址:https://arxiv.org/abs/2501.01895)
钛媒体AGI:目前很多人形机器人其实只是在做摆手、翻跟头、叠衣服等动作和展示,这种能力是不是有点局限,或者说人形机器人应该不是这样这么简单的,您怎么看?
姚卯青:我觉得,您的观点是完全正确的。就机器人只会这些的话,其实更多还是娱乐,它没有产生这种生产力价值,你就只会跑跳翻跟斗,他对你的生活有什么帮助?所以更核心的还是,一定是有AI大模型,能够给机器人带来这种操作上手能力,它可以进工厂作业,也可以在零售、服务业里面作业,长期来说,它可能还会进入家庭作业,只有真正能够去做事情,我觉得才是机器人价值被充分发挥的时刻。
钛媒体AGI:今年春晚上的“人形机器人”,其实是没有灵巧手的,本身只是一个电机和结构件的旋转,那么您认为,“灵巧手”还有很高的价值吗?
姚卯青:我认为,毋庸置疑(灵巧手)是非常重要的。人很多的劳动能力,区别于一些动物的劳动能力价值,其实大部分都在我们的双臂、双手上。而机器人“灵巧”操作,需要一个高自由度的五指灵巧手,而且这个灵巧手要带很多力觉反馈、触觉反馈以及力矩控制,因为手比较精细,你要很精细地能够去控制它的一些力矩等,它不会把东西捏破。
市面上的灵巧手现在依旧还算早期,离我们想象中的灵巧手还有很大的距离。人的手有二十多个自由度,但现在市面上已经量产的灵巧手还没有达到人类的水平,每个手指只能有一个关节是主动弯曲的,往手掌心这样弯曲,它没有侧边的侧摆,也没有旋转这种。所以,手部功能的局限性会制约未来人形机器人性能的发挥。
钛媒体AGI:有些客户反馈,某些场景下,人形机器人的效率还不如人直接拿和放的效率,您怎么看?
姚卯青:有些机器人确实是这样,它终究还是在做抓、放这一个动作,这也是为什么可以在仿真里面玩。因为抓一些刚性的物体,它动力学比较直观,可以被仿真,但它到现在还是在做抓放,而且做的都是现在一些常见的VLA的模仿学习。
但当机器人最终要进入工厂应用时,会面临诸多现实问题。在工厂环境中,机器人的操作成功率和工作节拍必须与人类相当,说实话,仅靠 “模仿学习” 根本无法达到这样的效果。因此,机器人必须结合强化学习技术,然而目前这仍是一道较高的技术门槛,并非所有团队都有能力开展。所以,我们计划将模仿学习与强化学习相结合。
在DeepSeek热潮之前,我们便已着手强化学习方面的研究,并且组建了一支在真机强化学习领域极为专业的专家团队 。
钛媒体AGI:正如您所讲,最近行业里比较热的话题是真机“训练场”。相比其他公司,智元在临港等地有专门的训练场,但很多企业偏向于模拟仿真,那么您认为,“训练场”是否真的很重要?
姚卯青:我觉得,真机训练永远是最重要的,这也是为什么美国的机器人公司很强调真机数据。同时,包括自动驾驶公司也主要用实车数据开发。
道理很简单,从仿真器到真实世界,这之间还是有很多gap。仿真能模拟很多物理现象,但也很难精确模拟的一些方面,柔性物体接触、摩擦力等,这个是很难精确建模的。你像叠衣服这么一件简单的事,就很难模拟,所以肯定是真实世界价值是最高的,但真实数据的成本也确实更高。
钛媒体AGI:您认为现阶段中国的人形机器人跟国外先进的人形机器人,如特斯拉的擎天柱相比,是否有差距?
姚卯青:从硬件和算法两个角度来讲,我认为没什么差距。因为特斯拉的人形机器人供应链也离不开中国企业的支持。
如果要实现马斯克所说的一个人形机器人2万美元,约合人民币15万元的成本,就必须依靠中国的供应链体系,这是毋庸置疑的。而且特斯拉新能源汽车量产成功也已经证明了中国供应链的实力。特斯拉的高速发展离不开中国完备的新能源汽车供应链和现代化生产制造体系。
从具身算法的模型设计以及最终呈现的效果来看,目前海外的机器人以及我们自主研发的机器人和相关模型,在这方面并没有显著的差异。
“卷”9.9万元价格战没意义,人形机器人进入家庭还需5年
钛媒体AGI:波士顿动力创始人Marc Raibert去年表示,大部分人形机器人都是“炫耀”而非生产力,尤其是商业化盈利阶段,您怎么看这个说法?
姚卯青:确实还没有,但是今年我们希望落地的几个场景,希望第一个能够真正做到这样的(实现生产力的智能机器人)公司,尤其我们在工业场景、部分商用场景其实都有一些布局。
钛媒体AGI:近期高盛发布研报指出,全球人形机器人的放量步伐将慢于市场预期,您认为这个预测有道理吗?
姚卯青:看这个市场预期怎么定义,马斯克说明年几十万台规模,确实是稍微激进了一些,单一企业年出货量超过万台是一个有机会达到的状态。我们1月的1000台下线是一个里程碑,在市场能力、制造能力都有比较大挑战下做到,并没有那么容易,因为这个行业还比较新,要达到一个月100台的产能其实不容易。
钛媒体AGI:去年一整年行业最关心的是“9万9”机器人,事实上,人形机器人有高昂的研发成本和生产成本,那么您认为,这种低价战略对于市场是一件好事,还是坏事?
姚卯青:这是一个非常好的问题。我觉得,9万9的机器人更多是比较吸引眼球。实际上,可开发版本的费用大约20多万到50万左右,并不便宜。
其次,我觉得这个阶段大家何必一上来连蛋糕都还没有做出来,就开始急着“卷”价格战,大家连本体、硬件、算法等都还没有收敛的情况下就开始价格战,这个其实没什么意义。
所以,更主要的还是要看产品的竞争力,你的智能化程度,你的硬件的成熟度,但如果说都达不到给用户创造价值的时候,你就光去打9万9,只会把这个市场变成一个很不健康的状态。
钛媒体AGI:现在人形机器人还是在工业环境,您觉得需要多长时间能够进入家庭过程当中?
姚卯青:我们的目标是,今年能真正在1、2个工业场景去落地,所谓落地,是说客户可以真正放心的把它像用工人一样去用,成本上是可以接受,并且能够提升产能。未来一两年,我觉得能有一些局部应用落地,走入家庭,我个人觉得还需要5年左右时间,因为家庭环境比较复杂,家庭操作一些物体也不太一样,任务比较开放式一些。
钛媒体AGI:在您看来,AGI(通用人工智能)到底是什么?行业如何正确走向AGI?
姚卯青:如今数字世界的大模型,现在已经可以算是AGI了,它可以回答你所有的问题,可以帮你去总结,甚至规划,以及回答最难的奥数题,它能够部分超越人类水平,比如o3拿下了IOI 2024金牌。
但是,物理智能世界的AGI,就是能够在物理实践里面像人一样有通用能力的AGI,还需要5-10年比较长的时间。
一方面,数字智能能够迁移到物理智能去理解我们的世界,然后去规划动作,而且要成功、闭环、准确;另一方面,整个大模型和硬件需要更安全、更轻量、更灵巧,需要更成熟的机器人本体、灵巧手,也许还有5-10年时间。我相信,物理世界的AGI也是可以存在的。
(本文首发于钛媒体App,作者|林志佳)