新智元报道
编辑:编辑部 HYZ
【新智元导读】 不惧检验,全程线下公开及全球真机实时直播展示,「慧思开物」填补具身智能在通用软件系统方面的空白,颠覆传统机器人应用开发模式,宣告通用具身智能时代的里程碑突破, 具身智能「安卓」时刻已经到来,通向通用具身智能时代的「虫洞」已打开。
目前,大部分机器人主要是基于特定机型、特定场景、特定任务进行固定程序的开发,机器人的智能化仍处于初级阶段。
据IFR报告,全球87%的机器人故障源于非结构化环境下的执行失败,而行业超60%研发投入耗费在场景适配的「填坑」工程中。
行业亟需一个具备多本体兼容、多场景适应和强大泛化能力的通用智能平台。
几日前,具身智能机器人国家队——北京人形机器人创新中心(国家地方共建具身智能机器人创新中心,以下简称「北京人形机器人」)举办了一场发布会,发布全球首个支持多本体多场景应用的通用具身智能平台「慧思开物」,或许标志着具身智能从「功能机」迈向「智能机」时代。
「慧思开物」通过统一架构,如同安卓系统为智能手机提供通用操作系统一样,打破传统机器人开发模式,解决了行业长期存在的碎片化、泛化性难的问题,统一为机器人赋予了跨场景、跨本体的智能化能力。
正如DeepSeek带来AI大模型的进一步发展应用一样,「慧思开物」将助力更多的机器人以更加便捷、更加灵活、更加普惠的方式应用到工业、特种作业、商业服务、养老及家庭等更多的行业领域。
发布会全程实时直播,并现场真实展示了搭载「慧思开物」平台的各构型机器人以行云流水般的动作,完成了工业分拣、积木搭建、桌面整理、物流打包四大场景任务,展现了自然语言理解、视觉理解、空间感知、复杂任务理解、任务精准拆解、工具调用、双臂协作、毫米级精度操作、自主纠错、实时重规划执行等方面的惊人进化。
全球首个通用具身智能平台「慧思开物」
作为全球首个「一脑多能」、「一脑多机」的通用具身智能平台,「慧思开物」的应用是对基于单一场景单一任务做专项开发这一传统机器人应用开发模式的颠覆。
作为机器人中枢神经系统,「慧思开物」集成感知、决策、语言、学习及运动控制等高级认知功能,通过多专家智能体协同实现模型能力提升,增强机器人在复杂任务中的智能化与执行效率,同时通过低代码方式降低机器人开发门槛,简化开发流程,首次实现了单个软件系统在机械臂、轮式机器人、人形机器人等多构型本体上的兼容,能够适应多样化的应用场景和任务。
一脑多能,一脑多机:「慧思开物」支持机器人适应从工业到家庭服务等多类场景,执行不同类别的复杂任务,实现了单个软件系统对机械臂、轮式机器人、人形机器人等多构型本体的兼容。
强思维规划能力:通过多专家智能体能力集成,「慧思开物」具备行业领先的自然交互、空间感知理解、任务精准拆解、长程任务规划等能力。
轻松易开发范式:首创机器人+App的操作模式,通过「慧思开物」App可以让不懂算法、甚至不懂机器人的人或者企业也能够较为轻松、快速地完成机器人应用开发。
分布式多具身智能体的架构
从系统架构方面来看,「慧思开物」本质上是分布式的多具身智能体,主要分为具身大脑、具身小脑(包括具身运控和具身操作)两大部分,平台由AI大模型驱动的「大脑」(任务规划)和数据驱动的「小脑」(技能执行)构成,形成类似安卓的「底层系统+应用层」架构。
具身「大脑」具备自然交互、空间感知、意图理解、分层规划和错误反思等能力,具身「小脑」通过元技能库和动态控制实现动作执行,形成从具身「大脑」进行任务规划,再调用具身「小脑」技能库执行具体动作,并将执行反馈传递给具身「大脑」的完整任务闭环。
具身大脑在云端运行,包括交互Agent、规划Agent、反思Agent等,串联起包括VLM(视觉语言模型)、MLLM(多模态大语言模型)等多类基础模型,从而具备自然交互、空间感知、意图理解、分层规划和错误反思等能力;
具身小脑更多聚焦在端侧,运行在机器人本体,由VA(视觉-行动)、VLA(视觉-语言-行动)模型和LLM(大语言模型)驱动,负责端到端执行任务。
其中具身操作涵盖多类VLA(视觉-语言-动作)模型,构建元技能库,实现稳健泛化抓取、技能拆解执行、错误实时处理等能力;具身运控则是采用强化模仿学习方式,提升运动的稳定性,实现全身控制、双臂协作、稳定行走和移动导航等任务。
通用的系统级产品:「慧思开物」是解决行业共性问题、赋能行业发展的系统性通用具身智能平台产品,提供底层开发支撑,而非单个模型。如VLA等执行模型只是平台产品内具身操作部分的内容之一。
灵活开放系统架构:在整个系统产品内,除了内嵌自研的算法模块外,「慧思开物」也支持接入各种其他模型,以及以开源模型为基础结合真机数据训练优化的模型等,未来也会更轻便的集成表现更好的模型,不断提升平台的功能。
现场直播Live Demo全球展示
发布会现场,北京人形机器人还进行了现场实况直播,真实展现在不同机型、不同场景、不同任务的情况下,搭载「慧思开物」的直观表现。
1. 工业分拣:简单便捷的「App+机器人」模式
传统的机器人开发范式依赖复杂的编程调试与定制适配,门槛高、时间长。
然而在发布会现场,操作人员只在「慧思开物」App上面轻点几步,几分钟就完成一款工业分拣机器人的任务设计开发与实际运行,充分展现了「慧思开物」面向用户与开发者的简便易用性能。
通过「慧思开物」 App直连,UR-5e机械臂能够精准解析语音指令,进行合理的任务规划与技能调用,并通过双臂协同的方式完成分拣操作,同步对运行过程和结果实时反馈与显示,操作直观且简便,展现了「慧思开物」在人机自然交互协作与机器人系统高效对接方面的技术优势。
简易便捷的「App+机器人」模式,将复杂的技术能力(如推理、规划、技能调用)封装为简单易用的操作流程,用户基于「慧思开物」 App可以直接下发操作指令,显著降低了使用门槛。
同时,面向复杂任务的开发,平台支持自定义模型和技能的快速添加,能够灵活适配不同场景的应用需求,为工业自动化领域提供便捷、高效、智能的解决方案。
这其中,智能体的推理能力至关重要,需要准确的理解各种工具的能力并针对任务选择合适的工具,并推理出能够在工具能力之下实现的长程思维能力。
为了提升智能体的核心能力,可以针对性进行调优工作,如下表所示,在Function Call准召率上,通过增加通用基础能力数据,并合成DPO训练数据,在函数名匹配加全参数匹配评测的Function Call评测方法上,验证了Function Call核心能力提升的同时其他能力保持稳步提升,同时通过在MMLU(大规模多任务语言理解)评测集上看到通用能力不损失。
2. 积木搭建:业内领先的复杂任务智能化拆解与执行
正如北京人形机器人CTO唐剑在发布会开篇提到的「莫拉维克悖论」,虽然多模态大模型让机器人感知能力得到了巨大的提升,但是在具身操作各类任务下,视觉语言大模型仍然面临以下五项巨大挑战。
颜色误分类:颜色与目标物体高度相似的物体被错误识别为目标本身。
颜色区分粗糙:难以分辨相近色调(例如乐高积块中的浅蓝色与深蓝色)。
堆叠物体的几何识别问题:颜色相同的相邻或堆叠物体常被模型视为单一整体,因其无法识别物体间的清晰边界。
空间理解缺陷:难以理解物体的相对位置、尺寸差异及空间依存关系(例如判断哪些积木应置于其他积木之上)。
物理推理缺陷: 对物体间物理支撑关系及力学约束的推理能力仍存在显著局限(例如缺乏物理支撑的悬浮乐高积木)。
上述问题导致机器人在很多操作任务上无法准确地进行长程规划。北京人形机器人针对视觉语言大模型在以上能力的缺失上,通过「慧思开物」智能体进行知识注入,以Zero-Shot的方式实现无训练情况下视觉时空推理能力的提升。
通过积木复现这个典型例子上所得到的成功率极大提升,证明了框架有效性。
工作人员与「天工」闲聊的过程中随机搭建了一个积木样例,利用视觉大模型(VLM)对样例进行拆解,精确规划每一层的搭建顺序,准确拾取相应积木,并按次序完成了3层积木的毫米级精准搭建。
真实展现大模型思维链能力,强大的拟人交互能力、视觉语言理解能力、空间解析能力以及毫米级的精细化操作,流畅精准完成积木搭建。
如下表所示,在MMB以及SEEDbench等视觉语言大模型空间智能评测数据集上,在「慧思开物」具身智能体加持下的各类开源和闭源多模态大模型空间理解能力上均得到了很大提升。
除了视觉语言问答相关评测之外,北京人形机器人还构建了适用于具身智能的评测集,能够在空间相对位置、距离、成功失败判断、可达性以及可操作性等维度进行了评估,采用「慧思开物」具身智能平台相比单纯调用GPT-4o等多模态模型在具身智能能力上也有很大提升。
近期,北京人形机器人已将相关成果整理为EmbodiedVSR(Embodied Visual-Spaital-Reasoning)技术报告进行公开介绍[1],该技术报告系统阐述了多模态感知、空间推理与具身决策的协同机制,完整呈现了算法框架、实验数据及工程化方案,后续将分阶段开源核心代码及配套数据集。
3. 桌面整理:业内领先的实时纠错双臂协同流畅操作
现有的具身操作由于成功率、运行速度等难以保证,大多停留在视频展示阶段。「慧思开物」发布会现场带来了全球首个实时直播无惧干扰的VLA模型。
在一镜到底的数分钟展示中,「天工」机器人完美实现了双臂协同桌面流畅整理,面对不同的桌面杂物布局,在被多次随机的人为打断或者移位干扰情况下,依然能够精准识别桌面物品并实时反应、动态调整、自主重试,流畅丝滑、锲而不舍地完成桌面上各类杯子、盒子、纸团等杂物的收纳放置。
以上这些能力体现,均来自于北京人形机器人自研的端到端VLA模型,仅需数十小时数据的训练,充分利用离散策略、自监督学习以及轻量级策略模型的高频输出。
此外,为了更好地实现操作过程中的抗干扰能力和错误恢复能力,北京人形机器人技术团队提出了一种自监督数据过滤框架(SSDF)[2]从失败数据中提取有价值的信息。该框架通过结合专家数据和失败数据来计算失败轨迹段的质量分数,并筛选出高质量的失败数据片段用于训练。
具体来说,SSDF通过三种自监督任务(掩码状态转换预测、状态转换重构和动作自回归)提取代表性特征,并根据这些特征计算失败数据与专家数据之间的相似度,最终筛选出高质量的失败数据片段用于模仿学习。
掩码状态转换预测任务通过预测被掩码的状态转换来学习状态之间的依赖关系;状态转换重构任务通过重构状态转换来提取状态变化的特征;动作自回归任务则通过预测未来动作来学习动作序列的模式。
这些任务共同作用,使得SSDF能够从失败数据中提取出与专家数据相似的高质量片段。
通过更加有效的数据过滤和利用,SSDF框架可以大幅提高各种机器人系统在高不确定性环境中的表现。
4. 物流打包:首次实现全流程自主真实物流场景打包
发布会现场还展示了首个全尺寸人形机器人物流打包全流程的自主作业,展现机器人对长序列复杂任务的理解与执行能力和灵巧手在工具使用与精细操作中的优势。
「天工」机器人左右手分别拿起物品和扫码枪,通过头部相机确认物品条形码位置,双手协同完成扫码、装箱、封箱及粘贴快递标签等一系列操作,最终将包装箱放于物流传送带上。
这一物流打包场景的成功执行,有赖于一系列灵巧操作技能的精准实现与组合切换,对操作算法的多任务能力(如抓、放、推拉、扫码、旋转等)有极高的要求。
现有算法难以准确区分和适应不同任务,导致多任务操作失败率较高。
为了解决这一问题,北京人形机器人技术团队提出了一种名为Discrete Policy[3]的创新方法,通过向量量化变分自编码器(VQ-VAE)将动作序列映射到离散的隐动作空间,并利用条件扩散模型生成任务特定的隐动作模式嵌入向量,从而解耦多任务动作空间。该方法通过离散化隐动作空间,有效区分不同任务的动作模式。
具体来说,VQ-VAE将连续的动作空间离散化为有限的隐动作空间,使得每个任务的动作模式可以被清晰地分离和识别,条件扩散模型则进一步生成任务特定的隐动作模式嵌入向量,确保机器人在执行不同任务时能够选择最合适的动作模式。
通过对多个技能任务的合理组合与切换,机器人能够显著提升其在动态环境中的适应能力,和面向更复杂场景、更长序列任务执行的应用。
5. 拟人移动:行走奔跑步更拟人更稳健
通过基于状态记忆的预测型强化模仿学习方法,「天工」机器人实现了拟人感知行走。
在平坦地面上拟人直膝行走,在草地、雪地、沙丘、山地等复杂地形中,依然能够步伐稳健平稳移动,具备强大抗干扰能力;通过感知环境,在面对连续多级阶梯和大高度差地形时灵活的调整速度和步态,做到不磕碰,不踩楞,不踏空地通过。
· 强化模仿学习实现拟人直膝行走:
采用双重模仿方式,部分关节直接模仿人类轨迹,保证了机器人直膝拟人步态。同时将人类运动捕捉数据编码为高维运动基元,使机器人模仿人类关节之间的协调关系,使其在行走过程中能够呈现出自然摆臂的动作,增强了整体动作的协调性。采用适当的奖励机制与课程学习,平衡直膝行走拟人效果与行走稳定性。上述方法既保证了机器人直膝拟人步态,又保证了行走稳定性,让机器人行走的节奏更加从容、自然,彻底告别了以往小碎步所带来的生硬感。目前,该技术已成功在「天工Ultra」上实现高效稳定的拟人直膝行走,机器人行走速度可达 0.8 米 / 秒。
· 短时记忆增强平衡控制:
引入一段时序的本体历史状态信息形成短时记忆,通过能够准确观测的本体状态信息实现对难以准确观测的状态信息的估计和预测,结合反复迭代的强化学习仿真训练,使机器人拥有了近乎本能的平衡控制能力,实现各类复杂泛化地形的平稳通过,且具备强大抗干扰能力,能够抵抗高达45Ns冲量的外部冲击,在雪地等复杂地形被外力拖拽也能自动保持平衡。
结语
2024年12月,北京人形机器人发布了大规模多构型具身智能数据集和Benchmark——RoboMIND[4],作为业内首个经由多类视觉语言动作(VLA)及端到端模型充分验证的跨本体标准化大规模数据集,包含10.7万条机器人轨迹数据,涉及多达479项不同的任务,涵盖了96种不同的物体,覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景,具备高度的通用性和可扩展性,为「慧思开物」提供了从任务理解到操作执行的全流程数据支持。
正如安卓通过开源吸引全球开发者共建生态,「慧思开物」也将有序对外开源开放,通过本体开源、数据集开源、模型代码开源和社区协作等方式,助力行业高质量发展,其开源数据集RoboMIND已吸引数千次下载。
如今,随着通用具身智能平台「慧思开物」的推出,机器人在具有高性能本体的同时,也将全面提升智能化水平。相信机器人将能更好地适应千变万化的现实环境,真实走进千家万户,赋能千行百业。
参考资料:
[1] EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks. https://arxiv.org/abs/2503.11089
[2] Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation, ICRA 2025. https://arxiv.org/abs/2401.08957
[3] Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation, ICRA 2025. https://arxiv.org/abs/2409.18707
[4] RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation. https://x-humanoid-robomind.github.io/