梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

2025,人形机器人量产元年。

CES上老黄带着14台机器人亮相这一幕刚过去不久,SemiAnalysis分析师的一条预测再次引起热议。



英伟达最终将成为一家机器人公司,而不仅仅是半导体公司。
只有少数人理解他们最底层的布局,从制造到软件。



这样的观点从何而来?英伟达在机器人上究竟有哪些布局?又为什么明确不直接下场制造机器人?

在英伟达北京办公室,英伟达机器人与边缘计算副总裁Deepu Talla回答了一切。



三台计算机,迎来机器人的ChatGPT时刻

(以下为Deepu Talla演讲内容整理)

对我来说,有三个主要原因使机器人技术变得不可或缺

危险工种。比如矿工或者在危险环境中工作的人员,机器人可以替代人类承担这些危险任务。

劳动力短缺。每一代人选择的职业都与上一代不同。比如,我的祖父母是农民,但我的父母离开了农业,而我甚至从未从事过农业。工作在不断演变,劳动力短缺问题也随之加剧。

养老需求。人类的寿命越来越长。如今,全球平均预期寿命已超过75岁,而25年前仅为67岁,50年前则只有57到58岁。再过25年,或许寿命会超过100岁,也许以后甚至能达到150岁。但如果人类活到200岁呢?你希望由75岁的孩子来照顾你吗?大概不会。所以我们需要“社会伴侣”——机器人,来帮助解决护理和陪伴的问题。

这些并不是什么新信息,但情况确实发生了变化。从2024年到2025年,对机器人技术的兴趣显著增长。

各国的企业都在探索如何开发人形机器人。为什么是现在,而不是两年前?发生了什么改变?

有两个主要原因:

技术进步,特别是在生成式AI(GenAI)领域。

大约两年前,大型语言模型(LLMs)颠覆了数字应用领域。现在,这些技术也开始应用于机器人技术,打破了数字应用与物理应用之间的界限。

仿真环境的改进,制造一个机器人非常昂贵,因为它们并未实现大规模量产,这使得成本高昂。

在物理世界中取得进展同样需要大量时间,因为一切都遵循“真实时间”(即我们所说的“墙钟时间”)。以前,机器人技术的测试主要依赖于物理环境,这导致进展非常缓慢。那么过去12个月中发生了什么变化呢?

过去一年中,NVIDIA开发了一项名为Omniverse的技术。你可以将其看作一种仿真环境,一个“绿色”环境。这项技术已经取得了显著成熟——尽管还未完全解决所有问题,但其发展水平已相当于生成式AI在仿真领域的应用水平。现在,想象一下,借助这些技术进步,机器人开发流程可以变得快得多。

因此,在接下来的5到10年里,我们将在机器人领域看到显著的差异。这就是为什么现在每家公司都在专注于推动这一领域的发展。我与许多公司讨论过,他们都在研究与机器人相关的问题以及通用型机器人“大脑”模型的开发。这就是未来——一个能够帮助解决危险工作、劳动力短缺以及企业运营挑战的未来。

这一进展令人无比激动。一年前,这一方向是否能成功还并不明朗。虽然之前已经有不少努力,但过去6到12个月的突破性发展改变了一切。

现在,当人们谈论机器人时,大多数人会想到物理机器人——那些像人或工业工具的具体机器。这种物理形态是目标,最终的成果。但通向这个目标的道路非常复杂。为了真正解决机器人领域的挑战,我们需要三台计算机:

第一台计算机用于训练:这是用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行。这是构建机器人“大脑”的关键步骤。

第二台计算机用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险。更好的解决方案是引入一个“仿真层”,即“数字孪生”,在虚拟环境中完成测试。仿真允许在大规模、快速且安全的条件下运行数千种场景测试,无需受到真实世界时间或成本的限制。

第三台计算机用于部署:第三种系统安装在机器人内部,它就是操作物理机器人的“大脑”。对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现。

通过整合这三种系统,我们可以显著缩短开发时间。在现实世界部署之前,通过仿真进行成千上万次测试,加速整个流程。如果某个设计在现实中表现不佳,可以回到仿真环境中优化模型并再次测试。这个循环过程(训练、仿真、测试)使得机器人技术的进步能够在5年内完成,而不是50年。

这种方法也解释了为什么机器人技术比自动驾驶更难。对于自动驾驶来说,主要是避免障碍并确保安全,而无需与物理物体交互。而在机器人领域,涉及到的是与物体的接触、碰撞和复杂的物理交互,这些都更难测试和优化。

仿真并不是一个新概念。例如,在芯片设计领域,100%的芯片在制造之前都需要进行仿真,以确保其功能完美无缺,因为芯片设计中的错误可能导致数月的延误,并耗费数百万甚至数十亿美元。

在机器人领域,主要的挑战在于“仿真与现实的差距”(sim-to-real gap)——也就是仿真结果与实际表现之间的差异。直到最近,仿真技术的精度还不足,因此未被广泛采用。然而,像Omniverse这样的技术进步显著缩小了这一差距。虽然这一差距尚未完全弥合,但改进已经足够大,使仿真成为机器人开发中的一种可行且有效的工具。

在英伟达,我们并不直接制造机器人,而是与所有从事机器人制造或机器人解决方案开发的人员合作。我们正在构建一个包含三种计算系统以及相关软件工具和工作流程的平台,帮助机器人专家、研究人员、机械工程师和测试人员更轻松地开发机器人解决方案。这一平台旨在简化和加速整个过程。

现在,让我们聚焦于机器人开发中的三个主要步骤:训练、测试和部署。

以AI模型训练为例。像ChatGPT这样的流行模型是在大型GPU和来自互联网的海量文本数据上训练出来的。但机器人模型的训练需要完全不同的数据。机器人需要执行动作,比如拾取物体、移动、交互或完成任务。而遗憾的是,目前这种数据在规模上根本不存在。

数据收集与解决方案中有以下挑战:

现实世界数据的局限性
与自动驾驶汽车可以依赖现有车辆通过传感器收集数据不同,目前机器人的数量还远远不足以产生可比的数据量。

当前的方法包括使用Apple Vision Pro或动作捕捉套装来记录人类动作的示范。这些方法虽能提供有用的数据,但规模太小,无法完全满足机器人模型的训练需求。

合成数据生成的重要性
为了解决这一问题,合成数据生成变得至关重要。通过合成数据,我们可以生成特定动作(例如抓取物体)的无数种变化,或者构建完整的虚拟环境。

NVIDIA Cosmos是一个“世界基础模型”,可以生成高度逼真、类似视频游戏的环境,用于机器人训练。在这里,“世界”指的并不是地球,而是机器人交互的环境,例如机器人操作的房间内可见区域。

结合真实与合成数据
通过将少量的现实世界数据与使用像NVIDIA Cosmos这样的工具生成的大规模合成数据相结合,我们可以克服机器人技术中数据稀缺的问题。这种新工作流已经宣布并部分上线,我们正在与全球合作伙伴共同实施这一解决方案,以解决机器人领域的基础数据挑战。

没有足够的数据,机器人模型无法进行有效的训练、测试或部署。这使得数据的收集和生成成为解决机器人开发挑战的关键第一步。通过采用这种结合现实与合成数据的创新工作流,英伟达正为机器人领域的重大进步铺平道路。

One More Thing

那么这套方案在实际应用中,效果如何?

银河通用创始人、CTO王鹤介绍了他们是如何与英伟达合作的,以及取得了哪些成果。



银河通用使用NVIDIA Isaac系列以及Omniverse技术,使用仿真器合成大量的机器人操作数据,并将其转化为机器人的模型。

将各种3D固体资产、环境以及各类材质和纹理素材相互融合,模拟机器人的运行场景,探讨机器人如何操作物体。

在此过程中,仿真器和渲染引擎发挥关键作用,需要检查合成的场景在物理层面是否正确。若场景正确,我们就可以使用并行渲染器将数据渲染出来,并将机器人训练的数据存储下来,最终得到以10亿计的海量合成数据。

银河通用基于自研的10亿级别的合成大数据,训练出了全球最大机器人基础模型,满足七大泛化的“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

总的来看,英伟达的“三台计算机”解决方案,可以说是系统性地解决了机器人开发难题。

一方面通过虚拟仿真突破了物理时间的限制,将可能需要50年的发展周期缩短至5年。

另一方面不直接制造机器人,而是打造开放平台,为合作伙伴提供完整的软硬件工具链的做法,也有助于整个行业生态。

ad1 webp
ad2 webp
ad1 webp
ad2 webp