北京智源人工智能研究院院长 王仲远
3月29日消息,钛媒体AGI获悉,今天下午举行的2025中关村论坛年会“未来人工智能先锋论坛”上,智源研究院院长王仲远发布首个跨本体具身大小脑协作框架RoboOS、开源具身大脑RoboBrain。
全新发布的两款技术产品RoboOS、RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。
会前,王仲远对钛媒体AGI表示,这项成果是把多模态大模型放到“具身智能”当中进行落地的一个尝试。他指出,具身智能的发展依然在早期,如果具身智能模型走到完全成熟(端到端),这时需要海量的数据,类似这种具身智能模型需要到5年乃至10年后,5年属于乐观,10年后也许才能够成熟。
“不同的投资机构有不同的投资风格,如果比较看重产业落地,能够迅速在行业里面应用的(机构),也许当下进入‘具身智能’并不是一个好的时机,但是我们对于具身智能的长期发展是非常乐观的,就好像10年前我们在看无人驾驶技术是一样。”王仲远称。
所谓具身智能(Embodied AI),是将 AI 融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。换言之,一个具身智能机器人需要:首先听懂人类语言,之后分解任务、规划子任务,移动中识别物体,与环境交互,最终完成相应任务。
作为通向AGI(通用人工智能)的必要方向之一,目前华为、腾讯、美团、蚂蚁、京东等多家中国科技公司都已入局。
不过,当前具身智能面临四大瓶颈:数据短缺、模型能力弱、落地应用难、硬件不成熟。而智源希望以解决模型能力为突破口,通过研发具身大模型推动迭代能力代际跃迁。
具体来说,RoboBrain由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。RoboBrain采用多阶段训练策略,使其具备长历史帧记忆和高分辨率图像感知能力,进而提升场景感知和操作规划的能力。
目前,RoboBrain能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区域。在AGD20K测试集上,RoboBrain的平均精度超过了当时最先进的开源模型Qwen2-VL,验证了其在指令理解和物体属性方面卓越能力。
另外,智源还公布跨本体具身大小脑协作框架RoboOS,基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。在RoboOS的分层架构下,具身大脑RoboBrain的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型(如LLM/VLM)与小脑技能(如抓取、导航)的“即插即用”,目前,RoboOS可支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体。
此外,智源研发的FlagScale作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。
谈到开源技术发展,王仲远表示,开源RoboBrain能够实现跨本体化、不同品牌、不同类型的机器人。不管是单臂机器人、双臂机器人,还是轮式机器人、人形机器人,都可以使用RoboBrain,从而帮助硬件具备泛化智能能力,至少目前初步看到理解这个世界的人类指令规划决策。
“在我看来,这是我们在具身智能上的一小步,同时为了促进整个行业发展,我们也会将所有的研究工作、成果进行开源开放,希望能够与本体厂商、应用厂商一起来协作,促进整个具身智能行业更好、更快的发展。”王仲远表示。
智源表示,目前,智源研究院依托多模态大模型技术优势资源,正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。
(本文首发于钛媒体App,作者|林志佳)