稚晖君(本名彭志辉)曾是“华为天才少年”,以硬核科技视频走红 B 站,被誉为“野生钢铁侠”。2022 年,他放弃百万年薪,创立智元机器人公司。
创业之后,这位 90 后极客将实验室的奇思妙想化为现实,先后推出远征、灵犀两大系列人形机器人,能倒水、能烤面包甚至能搬动 40 公斤重物。
图 | 稚晖君(来源:https://bkimg.cdn.bcebos.com/pic)
而在最近,他和团队在机器人软件方面迎来新进展。其推出 AgiBot World Colosseo,这是一个全栈大规模机器人学习平台,专门为研发具身系统的双手操作能力而打造。
(来源:https://agibot-world.com/blog/agibot_go1.pdf)
AgiBot World 和 GO-1,是 AgiBot World Colosseo 的其中两个主要组成部分。
AgiBot World,是一款机器人学习数据集。最新版的 AgiBot World 包含 1001552 条轨迹,总持续时间为 2976.4 小时,涵盖 217 项具体任务、87 项技能和 106 个场景。AgiBot World 采用了从场景配置、任务设计、数据收集到人机验证的全面优化流程,数据质量能够得到一定保证。
GO-1(Genie Operator-1)是一种通用具身基座模型,它利用潜在的动作表示来最大化数据利用率,并能随着数据量的增加来实现可预测的性能扩展。
无论是在域内还是在分布外场景中,在 AgiBot World 数据集上预先训练的策略,比在 Open X-Embodiment 上训练的策略的平均性能提高 30%。同时,GO-1 在真实世界的灵巧操作和长时域任务中也表现不俗,其在复杂任务上的成功率超过 60%,并且比先前的 RDT 方法性能高出 32%。
AgiBot World:包含 3000 多个不同的对象
AgiBot World 是通过一个占地 4000 多平方米的大型数据收集设施开发而来。该数据集涵盖了广泛的场景种类和场景布局,确保在追求通用机器人策略时既具备规模又具有多样性。
(来源:https://agibot-world.com/blog/agibot_go1.pdf)
AgiBot World 覆盖五个关键领域:家庭、零售、工业、餐厅和办公环境。其包含 3000 多个不同的对象,并按不同场景进行系统分类。这些物体涵盖了各种日常用品,包括食物、家具、衣服、电子设备等。在每个领域内,稚晖君团队都定义了具体的场景类别。例如,家庭领域包括卧室、厨房、客厅和阳台等详细环境,而零售领域则包含货架单元和新鲜农产品区等不同区域。
AgiBot World 的一个显著特征是它强调长期操作。先前的数据集主要集中于涉及单个原子技能的任务,大多数轨迹持续时间不超过 5 秒。相比之下,AgiBot World 建立在由多个原子技能组成的连续完整的任务之上,例如“煮一杯咖啡”。
AgiBot World 中的轨迹通常跨度约为 30 秒,其中一些持续时间超过 2 分钟。稚晖君团队还为每个子步骤提供关键帧和指令注释,以便在这种具有挑战性的场景中进行策略学习。
在任务设计方面,虽然“拾取和放置”等通用原子技能占据了大多数任务的主导地位,但是该团队有意加入了一些不常用但是价值很高的技能任务,例如“砍”和“插”。这确保了 AgiBot World 能够充分涵盖广泛的技能范围,以便为每项技能提供充足的数据,从而支持稳健的策略学习。
为了更有效利用 AgiBot World 以及增强策略的可推广性,稚晖君团队还提出一个具有三个训练阶段的分层视觉语言潜在动作(ViLLA,Vision-Language-Latent-Action)框架。
(来源:https://agibot-world.com/blog/agibot_go1.pdf)
对于视觉-语言-动作(VLA,Vision-Language-Action)模型来说,它的动作以视觉语言为条件。而 ViLLA 模型能够预测潜在动作标记,并以后续机器人控制动作的生成为条件。
具体来说:
在第一层,该团队通过在互联网规模的异构数据上,训练编码器-解码器潜在动作模型(LAM,latent action model),将连续图像投影到潜在动作空间中。这使得潜在动作可以作为中间表示,从而能够弥合一般图像文本输入和机器人动作之间的差距。
在第二层,这些潜在动作充当潜在规划器的伪标签,有助于实现不受具身限制的长时域规划,并能够利用预训练视觉语言模型(VLM,vision-language models)的泛化能力。
在第三层,该团队引入了动作专家,并将其与潜在规划师联合训练,从而能够支持灵巧操作的学习。
硬件平台是 AgiBot World 的基石,这决定了数据质量的下限。为此,稚晖君团队为 AgiBot World 开发了一个硬件平台,该平台包含视觉触觉传感器、耐用的 6-DoF 灵巧手和人形配置,并具有双 7-DoF 臂、移动底盘和可调节腰部。
需要指出的是,它的末端执行器是模块化的,可以根据任务要求使用标准夹持器或 6-DoF 灵巧手。而对于需要触觉反馈的任务,可以使用配备有视觉触觉传感器的夹钳。
据介绍,该机器人配有八个摄像头:一个 RGB-D 摄像头和三个鱼眼摄像头用于正面观察,每个末端执行器上安装有 RGB-D 或鱼眼摄像头,两个鱼眼摄像头则位于后方。
该机器人能以 30Hz 的控制频率记录图像观察和本体感受状态,包括关节和末端执行器的位置。
与此同时,该团队采用了两种遥操作系统:虚拟现实(VR,Virtual Reality)头戴式耳机控制和全身运动捕捉控制。
VR 控制器将手势映射到末端执行器的平移和旋转,随后通过反向运动学将其转换为关节角度。控制器上的拇指杆和按钮,使机器人底座和身体能够移动,而触发按钮则能控制末端执行器的启动。
然而,VR 控制器将灵巧手限制为只能执行几个预定义的手势。因此,为了更好地释放机器人的能力,该团队采用了一种运动捕捉系统,该系统记录了包括手指在内的人类关节的数据,并能将其映射到机器人姿势,从而实现更精细的控制,包括控制手指运动、躯干姿势和头部方向。对于完成更加复杂的操纵任务来说,该系统能够提供必要的姿势灵活性和执行精度。
GO-1:顺利完成“倒水”和“补货饮料”等任务
前面提到,GO-1 是机器人学习平台 AgiBot World Colosseo 的另一个重要组成部分。为了验证 GO-1 的效果,该团队在几个不同复杂程度的任务上进行评估,并根据其视觉丰富度和任务范围进行分类。其中包括:工具使用(擦拭桌子)、可变形物体操作(折叠短裤)、人机交互(交接瓶)、语言跟随(补充饮料)等。
此外,该团队为每个任务设计了两个看不见的场景,涵盖位置泛化、视觉干扰和语言泛化,以便开展全面的泛化评估。
部分评估任务包括:
1)“补货”:拿起零食,放在超市货架上;
2)“桌面清理”:将桌面碎片清理到垃圾桶中;
3)“倒水”:握住壶柄,提起水壶,将水倒入杯中;
4)“补充饮料”:取出瓶装饮料,放在超市货架上;
5)“折叠短裤”:将平放在桌子上的短裤对折两次;
6)“擦桌子”:用海绵清洁桌面上的水。
(来源:https://agibot-world.com/blog/agibot_go1.pdf)
根据每项任务 30 次试验的平均值得出任务完成得分。其中,10 次试验在可见的设置中进行,20 次试验在变化或干扰下进行。
实验结果显示,GO-1 的表现明显优于 RDT,特别是在“倒水”和“补货饮料”等任务中。其中,“倒水”要求对于对象位置具备鲁棒性,“补货饮料”要求具备视觉鲁棒性和指令跟踪能力。
在 ViLLA 模型中加入潜在规划器之后,则能进一步地提高 GO-1 的性能,让 GO-1 的任务完成得分平均提高 0.12。
为了研究预训练数据的大小和策略能力之间是否存在幂律缩放关系,该团队使用 AgiBot World alpha、AgiBot World 100% alpha 和 AgiBot World beta 数据集的 10% 子集进行了分析,其中训练轨迹的数量在 9.2k 到 1M 之间。
在预训练中,其针对四个可见任务的最终策略的开箱即用性能进行评估。结果发现,该策略的性能与轨迹数量呈现出可预测的幂律缩放关系,皮尔逊相关系数为 r = 0.97。
(来源:https://agibot-world.com/blog/agibot_go1.pdf)
数据集、工具链和预训练模型均已开源
概括来说,AgiBot World 不仅仅是一个新的数据集,它朝着可扩展、通用机器人智能迈出了新的一步,助力机器人能够应对现实世界的复杂性。目前,数据集、工具链和预训练模型均已开源。眼下,稚晖君团队正在开发模拟环境,这一环境将与现实世界的设置保持一致,并旨在反映现实世界中的策略部署结果,从而有助于实现快速且可重复的评估。
总的来说,这一系列成果将具身智能的门槛降至新低,更以开源生态推动行业进化。前有春节期间火遍朋友圈的宇树科技,今有“天才少年”稚晖君公司的再秀肌肉,人与机器共舞的“百家争鸣”画面正在展开。
参考资料:
https://agibot-world.com/blog/agibot_go1.pdf
https://github.com/OpenDriveLab/AgiBot-World
排版:刘雅坤