智源研究院院长王仲远：至少5-10年，具身智能模型才能成熟落地

北京智源人工智能研究院院长王仲远

3月29日消息，钛媒体AGI获悉，今天下午举行的2025中关村论坛年会“未来人工智能先锋论坛”上，智源研究院院长王仲远发布首个跨本体具身大小脑协作框架RoboOS、开源具身大脑RoboBrain。

全新发布的两款技术产品RoboOS、RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持。

会前，王仲远对钛媒体AGI表示，这项成果是把多模态大模型放到“具身智能”当中进行落地的一个尝试。他指出，具身智能的发展依然在早期，如果具身智能模型走到完全成熟（端到端），这时需要海量的数据，类似这种具身智能模型需要到5年乃至10年后，5年属于乐观，10年后也许才能够成熟。

“不同的投资机构有不同的投资风格，如果比较看重产业落地，能够迅速在行业里面应用的（机构），也许当下进入‘具身智能’并不是一个好的时机，但是我们对于具身智能的长期发展是非常乐观的，就好像10年前我们在看无人驾驶技术是一样。”王仲远称。

所谓具身智能（Embodied AI），是将 AI 融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。换言之，一个具身智能机器人需要：首先听懂人类语言，之后分解任务、规划子任务，移动中识别物体，与环境交互，最终完成相应任务。

作为通向AGI（通用人工智能）的必要方向之一，目前华为、腾讯、美团、蚂蚁、京东等多家中国科技公司都已入局。

不过，当前具身智能面临四大瓶颈：数据短缺、模型能力弱、落地应用难、硬件不成熟。而智源希望以解决模型能力为突破口，通过研发具身大模型推动迭代能力代际跃迁。

具体来说，RoboBrain由三个模块组成：用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。在推理时，模型首先感知视觉输入，并将输入指令分解为一系列可执行的子任务，然后执行可操作区域感知和轨迹预测。RoboBrain采用多阶段训练策略，使其具备长历史帧记忆和高分辨率图像感知能力，进而提升场景感知和操作规划的能力。

目前，RoboBrain能够解读人类指令和视觉图像，以生成基于实时图像反馈的行动计划和评估，预测每一步的轨迹并感知相应的可操作区域。在AGD20K测试集上，RoboBrain的平均精度超过了当时最先进的开源模型Qwen2-VL，验证了其在指令理解和物体属性方面卓越能力。

另外，智源还公布跨本体具身大小脑协作框架RoboOS，基于“大脑-小脑”分层架构，通过模块化设计、智能任务管理和跨本体协作，为机器人提供高效、灵活、可扩展的底层支持，实现从单机智能到群体智能的跃迁。在RoboOS的分层架构下，具身大脑RoboBrain的复杂场景感知与决策能力，可与小脑技能库的高效执行能力深度结合，确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型（如LLM/VLM）与小脑技能（如抓取、导航）的“即插即用”，目前，RoboOS可支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体。

此外，智源研发的FlagScale作为底层支撑框架，支持大模型在多设备间的并行推理与多任务协同调度，可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统，全面释放具身大模型的系统潜力。

谈到开源技术发展，王仲远表示，开源RoboBrain能够实现跨本体化、不同品牌、不同类型的机器人。不管是单臂机器人、双臂机器人，还是轮式机器人、人形机器人，都可以使用RoboBrain，从而帮助硬件具备泛化智能能力，至少目前初步看到理解这个世界的人类指令规划决策。

“在我看来，这是我们在具身智能上的一小步，同时为了促进整个行业发展，我们也会将所有的研究工作、成果进行开源开放，希望能够与本体厂商、应用厂商一起来协作，促进整个具身智能行业更好、更快的发展。”王仲远表示。

智源表示，目前，智源研究院依托多模态大模型技术优势资源，正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业，积极建设具身智能创新平台，重点开展数据、模型、场景验证等研究，将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型，加速具身智能跨本体协作与规模化应用。

（本文首发于钛媒体App，作者｜林志佳）