智东西
作者 ZeR0
编辑 漠影
智东西1月21日报道,近日,NVIDIA机器人与边缘计算副总裁Deepu Talla在NVIDIA北京办公室,就机器人发展趋势、核心挑战与NVIDIA机器人布局等话题进行了深度分享。银河通用创始人、CTO王鹤也分享了银河通用基于10亿级合成数据训练出全球首个端到端具身抓取基础大模型GraspVLA的经验。
就在不久前,NVIDIA发布了世界基础模型平台Cosmos。它可以生成高度逼真的、类似视频游戏的环境,用于机器人训练。Deepu Talla解释说,这里的“世界”指的并不是地球,而是机器人交互的环境,例如机器人操作的房间内可见区域。
据他分享,NVIDIA Isaac GR00T是一项非常全面的针对人形机器人开发通用基础模型的计划,涵盖从数据生成到最终部署的完整流程。Cosmos拥有一系列开放的预训练世界基础模型,专为生成具有物理感知的视频和物理AI开发所需的世界状态而设计。两者相结合,提供从数据生成到部署的完整解决方案。
同时NVIDIA也在开发能够模拟大规模机器人队伍的技术Mega。Mega是一个参考架构,将机器人、环境和传感器集成在一个平台,支持在大规模场景下进行实验并优化机器人系统的性能。
银河通用与NVIDIA保持着密切的合作。在NVIDIA CES 2025发布会上,全场唯一的轮式人形机器人便来自银河通用,这个机器人托举起NVIDIA最新显卡产品RTX 5090的画面引起了关注。NVIDIA创始人兼CEO黄仁勋还在会后参观银河通用展台,并体验了下单机器人替用户取货的全流程。
王鹤认为采用合成数据是快速实现具身智能突破的有效途径,相信数据赋能的具身智能将推动通用人形机器人的进步。据他透露,银河通用将在2025年上半年向大家展示真正的人形机器人相关成果,其在技能基础上所能拓展的空间“想象力非常大”。
一、机器人发展,需要三台计算机
据Deepu Talla分享,有三大核心原因驱动机器人技术发展:危险的工作、劳动力短缺、养老需求。尤其过去两年,中美企业更加活跃地探索如何开发人形机器人,这一变化来自两个核心原因:技术进步与仿真环境的改进。
技术进步方面,大模型技术开始应用于机器人技术,打破了数字应用与物理应用之间的界限。在改进仿真环境方面,以前机器人技术的测试主要依赖于物理环境,导致进展非常缓慢,但过去一年间,NVIDIA Omniverse仿真环境的发展水平已经相当于生成式AI在仿真领域的应用水平。借助这些技术进步,机器人开发流程可以变得快很多。
Deepu Talla预测,接下来5到10年,我们将在机器人领域看到显著的变化。
他提到为了真正解决机器人领域的挑战,我们需要三台计算机:
第一台计算机用于训练:这是用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行。这是构建机器人“大脑”的关键步骤。
第二台计算机用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险。更好的解决方案是引入一个“仿真层”,即“数字孪生”,在虚拟环境中完成测试。仿真允许在大规模、快速且安全的条件下运行数千种场景测试,无需受到真实世界时间或成本的限制。
第三台计算机用于部署:第三种系统安装在机器人内部,是操作物理机器人的“大脑”。对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现。
Deepu Talla认为,整合这三种系统,可以显著缩短开发时间:在现实世界部署之前,通过仿真进行成千上万次测试,加速整个流程;如果某个设计在现实中表现不佳,可以回到仿真环境中优化模型并再次测试。这个循环过程(训练、仿真、测试)使得机器人技术的进步能够在5年内完成,而不是50年。
这也解释了为什么机器人技术比自动驾驶更难。对于自动驾驶来说,主要是避免障碍并确保安全,而无需与物理物体交互。而在机器人领域,涉及到的是与物体的接触、碰撞和复杂的物理交互,这些都更难测试和优化。
▲NVIDIA机器人与边缘计算副总裁Deepu Talla
二、缩短仿真与现实差距,合成数据是有效解法
在机器人领域,主要挑战在于“仿真与现实的差距”(sim-to-real gap)——也就是仿真结果与实际表现之间的差异。像Omniverse这样的技术进步则显著缩小了这一差距。
NVIDIA并不直接制造机器人,而是与所有从事机器人制造或机器人解决方案开发的人员合作。这家AI计算巨头正在构建一个包含三种计算系统以及相关软件工具和工作流程的平台,以帮助更轻松地开发机器人解决方案。
机器人开发有三个主要步骤:训练、测试、部署。其中机器人模型训练面临现实世界数据量不足的问题。
王鹤也谈道,用真实世界数据来驱动人形机器人,在短期内难以实现具身智能突破。采集机器人数据要比采集自动驾驶数据困难的多。开车是刚需,用户买车上路了自然会驾驶。但没有任何一家人形机器人公司能为用户付费采集数据,且人形机器人数据采集难复制,只能冷启动,这是全球人形机器人公司面临的瓶颈问题。
▲银河通用创始人、CTO王鹤
采集数据的成本非常高。谷歌RT-1模型的13万条数据花费了17个月、16个工程师、13台机器人。特斯拉的系统设备和整个数据采集过程同样成本高昂,费用高达百万。
针对真实世界数据短缺瓶颈,合成数据生成是一个有效解法。
将少量的现实世界数据与使用像NVIDIA Cosmos这样的工具生成的大规模合成数据相结合,有助于克服机器人技术中数据稀缺的问题。这种新工作流已发布并部分上线。NVIDIA正在与全球合作伙伴共同实施这一解决方案,以解决机器人领域的基础数据挑战。
NVIDIA Isaac GR00T是一项针对人形机器人开发通用基础模型的计划,涵盖从数据生成到最终部署的完整流程。GR00T Blueprint是一个软件可编程的开放平台,具备支持机器人在长时间执行任务过程中基于实时环境反馈进行自我优化的潜力。它通过多样化的参考架构,针对特定任务提供不同Blueprint,为模拟现实场景中的复杂性提供了支持。
GR00T平台还注重实时多模态数据处理能力,能够同时处理摄像头和其他传感器的数据,并与机器人执行器无缝协作。这样的多模态数据整合不仅提升了机器人对环境的感知能力,也显著缩小了仿真到现实的差距。
同时,该平台依托Omniverse打造的Isaac Sim仿真环境,通过数字孪生技术高度还原真实世界场景,并结合真实的物理交互属性,使仿真环境具备极高的现实一致性,从而帮助机器人更精准地适应真实场景。
三、用10亿级合成数据训出具身大模型,为未来灵巧操作奠基
银河通用是通过合成数据推动智能发展方向的早期探索者。这家创企使用NVIDIA Isaac系列及Omniverse等平台,积极探索使用仿真器合成大量的机器人操作数据,并将其转化为机器人的模型。
他们将各种3D固体资产、环境以及各类材质和纹理素材相互融合,模拟机器人的运行场景,探索机器人如何操作物体。在此过程中,仿真器和渲染引擎发挥了关键作用。如果经检查,合成场景在物理层面是正确的,就可以用并行渲染器将数据渲染出来,并将机器人训练的数据存储,最终得到10亿级合成数据。
基于这10亿级合成数据,银河通用训练出了全球首个端到端具身抓取基础大模型GraspVLA。
这一基础模型满足七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。它能够根据输入的语言指令,直接针对特定任务进行操作,比如抓取物品。
针对特定需求,该模型仅需用少量数据训练,就能将基础能力迁移到特定场景,比如在不允许机器人碰到杯壁的家庭场景中,教会机器人抓取不同的杯子而不碰到它们。
只用少量数据就能教机器人掌握新技能的能力,有助于加速机器人落地普及。
而银河通用基于10亿规模合成数据训练的模型,仅需100条数据,就能迅速满足企业在这方面的需求,减少数据采集的时间和成本,并能理解产品的落地方向,快速在同类物体上进行泛化,使具身大模型机器人进入各行各业。
一路走来,银河通用借助大数据完成了更多复杂任务。
以灵巧抓取为例,银河通用利用大数据实现了对10亿级别的零售数据进行精准抓取,无论是四指还是五指操作,都能通过训练出的扩散模型实现。目前,其灵巧抓取的成功率超过90%,这为未来的灵巧操作奠定了坚实基础。
银河通用还将模型与足式机器人相配合,在本地Isaac引擎中进行了大规模应用。全身控制学习使得机器人能自主运行,完成各种任务。
比如宇树科技的四足机器人可以绕着未名湖捡垃圾。基于强化学习,它能够精准识别垃圾,整个过程完全不依赖真实数据。这种能力可以针对不同材质、形状、地形、高度、颜色等进行灵活调整,针对不同场景都能实现良好的泛化应用。
银河通用凭借具身大模型已经成功涉足众多行业,涵盖零售、酒店、接待、养老以及工业制造等领域。
在北京奔驰工厂里,银河通用人形机器人在人工装载天窗玻璃及转运过程中发挥着重要作用。天窗玻璃在吸起和放下时容易出现错误摆放,一旦出现这种情况,以往需要人工终止转运并进行修正。而人形机器人基于视觉闭环和从仿真中学到的操作技能,经良好训练后,能快速发现错误并进行有目的的纠正。
结语:仿真器需具备更好的泛化能力
NVIDIA的目标不是制造人形机器人,而是打造一个平台,使每个人都能创建自己的机器人。通过采用结合现实与合成数据的创新工作流,NVIDIA正在为机器人领域的重大进步铺平道路。
训练具身智能模型仍有大量的研究和工程工作要做。NVIDIA还在不断为平台添加更多功能,以确保其灵活性和可扩展性。
在合成数据中训练人形机器人,通常面临与现实场景不一致的挑战。为了确保合成数据的真实性,仿真器正在不断发展,物理建模和接触模拟的应用也在持续进步。截至目前,没有任何一个仿真器能够完全模拟真实世界。
据分享,对于任何使用仿真器的机器人公司来说,如何平衡数据生成与真实机器人对接始终是一个挑战。
解决这个问题,需通过算法手段缩小仿真与现实世界的差异。例如,通过贝尔曼最优性原则,采用预随机化方式,对接触面上的摩擦力、材质,以及物体的质量中心、质量大小和分布等问题进行随机处理。
虽然仿真器不需要与真实环境达到完全一致,但它应该具备更好的鲁棒性和泛化能力,能够在各种应用场景下保持有效性。这也是银河通用一直以来钻研并持续推进的技术,其目标是确保机器人在仿真中学习到的策略能够在现实世界中有效应用。