机器之心原创
作者:张倩
前段时间,在北京亦庄举办的「人形机器人半程马拉松」活动引发全民热议。有人对机器人在赛事中展现出的耐力和稳定性表示赞赏;当然,也有人因机器人频繁摔倒、出状况而感到失望,毕竟,这和短视频里那些跳舞、跑酷、侧空翻的机器人形成了巨大反差。
比赛跑成这样,是不是说明近几年围绕机器人、具身智能的热议是一场炒作?答案肯定不是简单的「是」或「否」。
但除此之外,还有一个问题更加值得讨论:如何打造一个真正可以走入现实世界的机器人?
更复杂、更智能的具身智能机器人需要建立在上一代具身智能完成商业闭环和真实世界数据闭环的基础上。」这是我们从具身智能从业者 、推行科技创始人兼 CEO 卢鹰翔口中得到的观点。而他所做的工作,就是打造这样一个商业和数据闭环。
如果你在苏州、深圳、上海等地点过机器人送的外卖,那你可能见过推行科技的机器人。它们和行人、自行车、电动车一起穿行、过马路,还会自己进小区、坐电梯,把外卖、商品送到用户手里。
推行科技的初代物流机器人,可以在复杂的交通环境中穿行。
视频链接:https://mp.weixin.qq.com/s/xE9ibJNxX6x51yE5Nfyevw
推行科技的第二代移动操作机器人Carri Flex,增加了灵活的上肢操作能力。
重要的是,这是一个商业化程度非常高的机器人。在实际运营过程中,它们会和人类骑手一起在商家门口等待接单,履约率考核标准也和骑手一致。由于履约率非常高(已达 98.5%),在一些高价值场景中,它们拿到的报酬已经可以覆盖自身的成本,做到了单个机器人盈亏平衡。
从容错性高、技术可及的场景入手,在具身智能发展早期就把机器人大量投入现实世界,实现商业化运营,并基于机器人的实际商用构建数量和丰富度逐渐进阶的数据飞轮,这就是卢鹰翔所说的「上一代具身智能的商业和数据闭环」。以此为基础,推行科技将逐步打造更复杂、更智能的具身智能机器人,并将它们投入更多场景。
那么,这个商业加数据闭环是怎么实现的,具体如何推进?我们和卢鹰翔以及推行科技另一位联创、CTO 龙禹含进行了多次沟通,旨在揭秘一条现阶段可行且后续可持续的具身智能发展路径。
机器人的进化论
在今年的 GTC 大会上,英伟达高级研究科学家 Jim Fan 提到了具身智能的「数据金字塔」概念。
图源:https://rdi.berkeley.edu/llm-agents/assets/jimfangr00t.pdf
金字塔的塔尖代表的是真机数据。这部分数据非常重要,包括 Jim Fan 导师李飞飞在内的很多人都相信,机器人的智能水平也像生物进化一样,需要在不断与真实物理世界产生互动、适应更复杂的环境的过程中逐渐进化。当然,这部分数据也非常稀缺,需要通过机器人的大规模部署来实现。
也有一些公司建立了自己的「数据工厂」,让机器人在人工搭建的场景中与数据采集师协同作业,逐条积累数据。但这种方式不仅成本高昂,而且人工搭建的场景在丰富度上天然存在局限性,这种局限性不可避免地会对机器人在真实世界中的泛化能力产生负面影响。
不过,除了真机数据,合成 / 仿真数据和互联网级的通识数据也是通用泛化具身模型训练所必须的。从 ChatGPT 走红至今,这两类数据的价值已经被充分认可,尤其是在语言模型的演进过程中,互联网通识数据的有效利用已成为提升模型能力的核心基础。
但在具身智能领域,互联网级的通识数据仍处于真空状态。填补这一空白,是推动机器人能力稳定泛化至真实复杂场景的关键前提,也是迈向通用智能高阶能力的必经之路。针对这一行业痛点,推行科技自研了「骑手影子系统」,构建了覆盖多种任务类型与环境变数的高密度人类行为数据集,从根本上提升了机器人在开放物理世界中的泛化能力与可靠性。相较仍困于数据瓶颈的行业现状,推行科技已率先完成通识级数据体系的构建与验证,形成显著的技术竞争力。
一条可持续的具身智能路径,从「骑手影子系统」说起
ChatGPT 能够通过学习海量人类对话数据,掌握语言的规律和模式,从而实现自然流畅的对话。特斯拉 FSD 则通过分析和筛选人类驾驶数据,择优学习驾驶决策和操作,进而实现自动驾驶。同样地,物流机器人也可以借助人类骑手的骑行和操作数据,学习自主应对各类交通环境、取放各种包装袋等技能,从而实现高效送外卖,这便是推行科技所打造的「骑手影子系统」的工作原理。
在之前的采访文章(参见《跟骑手学习送外卖,这家具身智能公司的机器人已经上岗挣钱了》)中,我们详细介绍过这个系统 —— 它主要通过安装在外卖骑手电瓶车上的车载硬件采集三种关键数据:环境数据(摄像头采集的路况、障碍物等视觉信息)、定位数据(通过 RTK 技术采集)以及驾驶数据(骑手在特定情况下的操作,如踩油门、刹车或转向)。系统获取这些数据后,通过模仿学习和强化学习算法让机器人学习人类骑手的行为,从而使机器人能够在复杂多变的城市环境中自主导航。这是「骑手影子系统」的 1.0 版本。
如今,这个系统已经进化成了「2.0」。除了电瓶车,它还可以将骑手的头盔、外套转化为动捕设备,记录人类骑手如何开关门、拿放外卖以及其他更复杂的操作轨迹,从而为加上「上肢」的机器人积累操作行为数据。
这种数据采集方式最显著的优势在于「量大管饱」:中国骑手平均每人每天跑 100-200 公里,一个普通超市前置仓的 15-20 个骑手一个月就能产生超过 10 万公里数据,一年可达近 200 万公里。所以,依靠这一模式,推行科技平均每日即可采集数万公里的骑行行为数据用于具身模型训练,在短短两三年的时间内就积累了数千万公里的行驶数据,数量级相当于国内头部自动驾驶公司的历史路测数据积累总和。
在推行科技 2024 年开始部署包含上肢数据采集设备的「骑手影子系统」2.0 版本以来,不到一年时间积累的上肢轨迹数据也达到了近百万条,采集效率和成本效率远超其它方式。此外,推行科技所采集的数据在场景类型、任务结构、操作目标等方面与机器人实际训练需求高度一致,具备强目标导向性与时空连续性,优于互联网视频等数据源中常见的碎片化、弱结构化内容,这些与机器人实际训练目标高度匹配的数据能更有效地驱动模仿学习与强化学习过程。
通过这种创新的数据采集方式,推行科技有效地解决了具身智能领域普遍面临的「数据魔咒」问题,为其机器人技术的快速迭代和商业化落地提供了可靠的原材料保障。
从「三原色」到「回环反馈」:走入现实世界的机器人如何随机应变?
骑手的行为数据蕴含着丰富的信息,推行科技的数据闭环平台可以对骑手的动作行为进行自动分解及标注。龙禹含提到,推行科技通过对海量骑手配送过程中的上肢行为数据的深入分析发现,看似复杂多变的骑手递送任务,实际上都由三个核心原子任务排列组合而成 ——按按钮、推拉门以及拿放货,就像是颜色里的「三原色」。值得注意的是,这三个原子任务通常仅需骑手使用右手进行单臂操作即可完成。
基于这一发现,推行科技成功定义了具备单臂操作能力的 Carri Flex 机器人,首次将具备上肢操作能力的机器人产品成功部署于真实开放的物理世界。在此基础上,推行科技进一步对机器人在真实场景中的服务数据进行收集,以训练可支持双臂协同等更为复杂任务且可靠性能达到商用标准的具身模型。
能将机器人部署于真实服务场景的关键是他们构造的行为树 VLA(Vision-Language-Action)模型。和很多 VLA 模型一样,这个模型使用 VLM 结合实时感知信息和当前任务来生成具体原子任务,而后通过一个行动模型将原子任务转化机器人的关节轨迹。
和传统 VLA 结构不同的是,行为树 VLA 使用 LLM 进行高层任务规划,可将高级指令(如,前往某店取单)转化为一个行为树结构。行为树将根据当前任务状态向 VLA 模型发布子任务(如,行进至某店,开门,于柜台上取货等)。行为树将接收 VLM 任务状态解码器通过回环反馈逻辑输出的任务状态信息,从而改变行为树当前所处的子任务分支。
这个反馈使得 LLM 能够了解到任务的实际执行情况。如果遇到问题或者环境发生变化,LLM 可以基于这个反馈调整或重新生成行为树,从而解决 VLA 模型在追求局部最优的过程中忽略了具体任务可行性的问题,使得模型在泛化场景中保持对齐,提高了整个系统的适应性和可靠性。
以 Carri Flex 机器人为例,其典型任务之一是在电梯间的外卖桌上放置外卖袋。然而,当桌面已被其他外卖占满这一特殊情况发生时,如果模型未经过类似场景的专门训练,基于模仿学习的 VLA 模型可能因为出现分布外(Out-of- Distribution,OOD)场景而产生行为退化现象,进而可能陷入无法恢复的执行失败,这在真实商业应用中是不可接受的。而在客户实际需求中,理想应对方式通常涉及任务层级的反馈机制与策略调整,例如将外卖转移至附近空旷区域,或通过电话通知收件人等。
推行科技针对这一类现实问题,在模型中构建了多层级反馈机制,使机器人能够在不确定环境中做出更符合人类预期的灵活应对,确保任务的稳定交付与用户体验的一致性。
「一脑多形、一脑多栖」:具身智能的商业落地与全球视野
廉价、量大、质优的数据获取方式和可靠的模型为推行科技实现一条可落地、可持续的具身智能发展路径提供了可靠基础。目前,他们已经和国内三家头部全国性即时配送平台同时达成业务合作,完成了近 10 万单配送
而且,由于数据是从复杂、多元的人类活动场景中采集而来,推行科技训练得到的模型具有较强的泛化能力,可以实现「⼀脑多形」和「⼀脑多栖」的部署。「⼀脑多形」指的是他们的模型不仅可以在自己的机器人身上部署,还可以泛化到四足机器狗平台和传统阿克曼底盘。「⼀脑多栖」指的是除了陆地环境,他们的模型还可以直接在静水船只上发挥作用(不需要为水面训练投入额外数据采集和调试成本),从而拿到了渔业养殖场景超百台订单(用于自动洒药及投料)。
之所以能够取得这些成果,除了路线的选择,推行科技的人才储备也发挥了重要作用。推行科技团队曾于卡内基梅隆大学国家机器人工程中心负责研发 CHIMP 人形救援机器人,并获美国国防高级研究计划局 DARPA 机器人挑战赛全球第二名。他们的机器人是当时将 8 个比赛任务全部完成并获得 8 分满分的三个机器人作品之一,也是唯一一个在失误摔倒后,没有借助人力自行恢复站立,继续完成任务的。
除此之外,团队还曾负责研发全球第二型获批美国加州 OL318 「全无人」牌照的 L4 级自动驾驶乘用车,这一背景为团队提供了搭建「骑手影子系统」的技术灵感和工程基础。
推行科技团队参与研发的 CHIMP 人形救援机器人
可以说,推行科技所选的具身智能路线,以及当前已经研发出的 Carri Flex 等机器人,在多年前就已经埋下了种子。
在海外,也有一些机器人公司在做和推行科技类似的事情,比如 Hinton 担任顾问的 Vayu Robotics。他们所在的市场有着诱人的前景,人力成本、递送费用高达国内的五到十倍,存在巨大的运力缺口。不过,卢鹰翔提到,和这些公司相比,推行科技的「国情优势」更加明显,因为我国有着庞大的骑手队伍和更复杂的城市末端环境,能够以更高的效率训练出强泛化能力的机器人。在综合考虑这些因素后,推行科技打算进军海外,为全球用户提供服务。
和机器人马拉松一样,具身智能的发展注定是一场持续多年的长跑。虽然在养老、家政等备受关注的场景中,机器人表现尚未达到预期,但在城市角落里,配送机器人已默默完成了数万单真实订单。推行科技的故事告诉我们,不必追求一步登天的技术突破,而是先在真实环境中找到商业闭环,再以此为基础逐步迭代。这种务实的进化路径,或许才是具身智能走向未来的最短捷径。