人类的双手是自然界演化的奇迹,其无与伦比的灵巧性、精确度和适应性使我们能够与物理世界进行复杂而细致的交互。在机器人学领域,复现这种能力,特别是需要双手协同配合的复杂操作,一直是科学家和工程师们追求的“圣杯”之一。尽管在单臂操作和基础抓取方面已取得长足进步,但要让机器人拥有媲美人类的双手操作能力,仍面临巨大挑战。近期,由北京通用人工智能研究院(BIGAI,Beijing Institute for General Artificial Intelligence)、清华大学和北京大学的联合团队共同开发了一种名为 MANIPTRANS 的方法,成功实现了人类双手操作技能向仿真环境中机器人灵巧手的高效迁移,为解决这一难题提供了全新思路。
“先模仿,后精调”: MANIPTRANS 的两阶段技能迁移框架
“人手在与环境交互中扮演核心角色,这自然激发了对灵巧机器人操作的广泛研究。”该研究的第一作者、BIGAI 研究员李恺林解释道,“然而,如何快速获取大规模、精确且接近人类水平的灵巧操作数据,用于训练 AI 智能体,仍然是一个亟待解决的关键问题。”
项目自 2024 年 8 月启动,最初的目标是训练通用的灵巧手技能模型,但很快便遇到了数据稀缺的瓶颈。传统强化学习(RL,Reinforcement Learning)方法通常需要复杂的奖励设计且效率低下,而遥操作(Teleoperation)成本高昂且数据通用性差。
(来源:研究团队)
面对困境,团队将目光转向了相对丰富的人类手-物交互 MoCap 数据集,萌生了设计算法工具将其转化为可在仿真环境中执行的灵巧手动作的想法。基于 Isaac Gym 仿真平台,他们开始了探索。初期,简单的抓取任务进展顺利,但随着任务难度提升,尤其是在需要双手协作和高技巧的动作上,简单的强化学习方法暴露出训练时间长、难以获得理想姿态的问题。
正是在攻克这些难题的过程中,团队意识到必须将复杂的迁移问题进行分解,决定不再试图一步到位地同时学习模仿运动和处理复杂的物理交互,而是将其拆解为两个循序渐进的阶段。
图丨 MANIPTRANS 流程(来源:arXiv)
首先,针对直接迁移中形态差异和运动误差累积的问题,研究团队设计了第一阶段的核心——第一阶段的核心——通用的“轨迹模仿器”()。此阶段的目标被限定为:只学习模仿人类手部的运动轨迹,暂时忽略与物体的交互。通过利用大规模的 MoCap 手部运动数据进行预训练(采用强化学习 PPO 算法,奖励侧重于跟踪精度和平滑性),这个模仿器能够学习到一种“理解”人类手部运动模式的能力,有效地将人类的运动意图映射到不同形态的机械手上,从而在很大程度上克服了形态差异带来的障碍,并为后续任务提供了一个平滑、自然的运动基线。这个阶段的成功,意味着机器人“看懂”了人类是怎么动的。
第一阶段解决了“形似”的问题,但生成的动作可能还不满足物理规律或无法有效操作物体。因此,第二阶段的关键任务是引入物理世界的约束,实现精确、稳定的交互。为了应对物理交互的复杂性和高维动作空间的挑战,MANIPTRANS 采用了残差学习(Residual Learning)的策略。它不再学习完整的动作,而是训练一个“残差模块”R来学习一个微小的修正量()。这个模块会接收更丰富的状态信息,包括物体的实时状态(姿态、速度、形状等)以及至关重要的模拟指尖接触力。基于这些交互信息,残差模块计算出对第一阶段模仿动作的必要微调。最终输出的动作()既保留了第一阶段模仿动作的自然流畅性,又确保了动作满足物理约束,能够稳定地抓握物体、施加合适的力并实现双手协同。这种增量式的学习方式极大地简化了学习复杂物理动态和高维协调的难度。
“当我们持续改进残差策略时,终于成功地让左右灵巧手实现了协同操作:左手抓取笔帽,右手握住笔身,并将笔身自然、流畅地插入笔帽中。这个动作不仅需要精准的抓握能力,更要求双手之间高度的协同配合。当时,团队的每一个人都感到非常有成就感。这次成功证明了我们的 MANIPTRANS 方法在解决迁移过程中问题的有效性,是项目的一个重要里程碑。”李恺林回忆道。
MANIPTRANS 这种将“运动模仿”与“交互精调”解耦的两阶段设计,正是其成功的关键。它巧妙地将原本高度复杂的学习问题分解为两个难度相对较低的子问题。通过首先建立良好的运动基础,再专注于物理交互的精调,极大地降低了学习所需探索的动作空间维度,显著提升了训练效率和最终的性能。这使得 MANIPTRANS 能够高效地将复杂的人类技能,特别是以前难以处理的双臂操作技能,成功迁移到灵巧机械手上。
基于 MANIPTRANS,研究团队构建了 DexManipNet 数据集,将多个代表性手-物交互数据集(包括 FAVOR 和 OakInk-V2)迁移到灵巧手上。目前该数据集包含 3.3K 个机器人手操作片段,涵盖 1.2K 个物体,总计 134 万帧,其中约 600 个序列涉及复杂双手任务,覆盖了 61 种不同任务类型,如笔帽插入、瓶盖拧开和化学实验操作等。
“DexManipNet 作为当前灵巧手操作领域支持复杂双手任务最多、数据量最大的数据集之一,我们有理由相信,基于该数据集可以训练出多种机器人操作技能模型,在仿真或真实环境中实现更通用、更灵巧、双手协作程度更高的灵巧手操作。”李恺林表示。
成功率、精度与效率全面领先现有方法
为了验证 MANIPTRANS 的有效性,研究团队在 OakInk-V2 的验证集上进行了严格的定量评估,并与几种基线方法进行了比较,包括仅使用强化学习从头训练(RL-Only),以及先进行姿态重定向再应用残差学习(Retarget+Residual)。
实验结果显示,在任务成功率方面,MANIPTRANS 表现最佳,对于单手任务和更具挑战性的双手任务,其成功率分别达到了 58.1% 和 39.5%,显著高于 RL-Only 方法(34.3%/12.1%)和 Retarget+Residual 方法(47.8%/13.9%),证明了其在可靠完成复杂模仿任务方面的能力。
图丨强化学习组合基线的定量比较(来源:arXiv)
在模仿精度方面,MANIPTRANS 同样全面领先。对于成功完成的任务,其平均物体旋转误差()低至 8.60 度,位移误差()仅为 0.49 厘米。手部动作的模仿精度也更高,平均关节位置误差()为 2.15 厘米,关键的指尖位置误差()则为 1.36 厘米。这些数据均优于所有对比的基线方法,例如,其指尖位置误差相较于 Retarget+Residual 方法降低了约 22%。
除了精度和成功率,MANIPTRANS 在训练效率上也表现突出。在与另一先进方法 QuasiSim 的对比中(针对特定任务),MANIPTRANS 仅需约 15 分钟的微调即可达到稳健结果,远快于 QuasiSim 所需的数十小时优化时间。
此外,研究团队还测试了 MANIPTRANS 在不同形态机械手(如 Shadow Hand, Allegro Hand 等)上的通用性,结果显示无需特殊调整即可获得一致、流畅且精确的性能。
为了测试其能力,研究团队还将 DexManipNet 中的双手轨迹在真实硬件上成功重放,展示了灵活自然的灵巧操作能力,包括拧开牙膏盖、向试管倾倒试剂等高精度任务。
通往通用灵巧操作之路
尽管能力领先,但研究团队也表示当前的 MANIPTRANS 还存在一些局限性。MANIPTRANS 虽然对中等噪声具有一定的鲁棒性,但如果输入的 MoCap 数据噪声过大,或者仿真中使用的物体模型不够精确(尤其是对于铰接物体),其性能可能会受到影响。
更重要的是,虽然 MANIPTRANS 在技能迁移方面取得了重大进展,但要实现真正的人类水平灵巧性,仍需进一步突破。研究团队表示,当前系统与人类手部操作相比仍有较大差距,主要体现在缺乏主动规划和调整力度以适应不同物体的能力(泛化性不足),以及缺乏基于物理常识对复杂任务进行自主分析、推理和规划的能力。要达到人类水平,未来的研究需要在更大规模的数据学习(融合视觉与触觉)和对物理世界的更深层理解(实现自主规划与调整)两方面取得突破。
团队正在积极规划未来的研究方向。他们期待开发出更具泛化性的算法,例如从互联网海量的操作视频中学习新技能,以提升灵巧手在更复杂任务上的表现。集成更先进的触觉感知也是一个重要的方向,尽管目前触觉传感器的硬件设计和算法融合仍是挑战,但其对于实现更精细、更鲁棒的操作至关重要。此外,将 MANIPTRANS 应用于改进实时遥操作,实现“AI 辅助遥操作”,也是一个充满潜力的探索方向。
研究团队已将 MANIPTRANS 的代码、训练好的模型以及 DEXMANIPNET 数据集全部开源,希望能以此推动整个领域的进步(项目地址:https://maniptrans.github.io/)。他们真诚地希望学术界和工业界的同行能够参与进来,利用 MANIPTRANS 迁移更多数据,并将更先进的灵巧手设计适配到该框架中,通过集思广益、协同合作,共同促进灵巧机器人操作技术的发展。
图丨相关论文(来源:arXiv)
相关论文已被 2025 年计算机视觉和模式识别会议(CVPR,Conference on Computer Vision and Pattern Recognition)接收,并以《MANIPTRANS:通过残差学习实现高效灵巧的双手操作迁移》(MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning)为题发表在预印本平台arXiv上。北京通用人工智能研究院研究科学家李恺林是第一作者,北京通用人工智能研究院研究科学家、通用视觉实验室负责人黄思远担任通讯作者。
参考资料:
1.https://arxiv.org/abs/2503.21860
运营/排版:何晨龙