微软正式开源UFO²，Windows桌面迈入「AgentOS 时代」

本论文第一作者为微软 DKI 团队的 Chaoyun Zhang，其为 Windows 平台首个智能体系统 ——UFO 的核心开发者，该项目已在 GitHub 上开源并获得约 7,000 Stars，在社区中引发广泛关注。同时，他也是一篇超过 90 页的 GUI Agent 综述文章的主要撰写者，系统梳理了该领域的关键进展与技术框架。其余项目的主要贡献者亦均来自微软 DKI 团队，具备深厚的研究与工程背景。

论文标题：UFO²: The Desktop AgentOS
论文地址：https://arxiv.org/abs/2504.14603
开源代码：https://github.com/microsoft/UFO/
项目文档：https://microsoft.github.io/UFO/

近年来，图形用户界面（GUI）自动化技术正在逐步改变人机交互和办公自动化的生态。然而，以 Robotic Process Automation（RPA）为代表的传统自动化工具通常依赖固定脚本进行操作，存在界面变化敏感、维护成本高昂、用户体验欠佳等明显问题。

同时，近年来兴起的基于大型语言模型（LLM）的计算机智能体（Computer-Using Agents，CUA）虽然展现出灵活的自动化潜力，但多数方案仍停留在概念验证或原型阶段，缺乏与操作系统深度集成的能力，制约了其在实际工作环境中的规模化应用。

针对这些行业痛点，作为前代纯 GUI 桌面智能体 UFO 的全面升级版，微软研究团队近日正式开源了业内首个深度集成 Windows 操作系统的桌面智能体平台 ——UFO² AgentOS。该平台不仅继承了 UFO 的强大 GUI 操作能力，还在系统层面进行了深度优化，显著提升了智能体在 Windows 环境下的操作效率与稳定性。

图 - 1：传统 CUAs 和 AgentOS UFO² 对比

UFO²：深度 OS 集成的桌面智能体

UFO² 不是传统意义上的桌面自动化工具，而是一种深度融入操作系统的智能体框架，首次以「AgentOS」理念设计，彻底解决了传统智能体界面交互脆弱、执行中断用户体验等核心问题。

UFO² 引入了多智能体架构：中央的 HostAgent 负责自然语言任务解析与子任务分解，而专属的 AppAgent 则为每个应用程序提供定制化的 API 接入、界面感知与交互能力。两者协同工作，实现了任务的精准分解与灵活执行，并支持跨应用任务，显著提升了系统的可扩展性与执行效率。

具体来说，UFO² 在以下几个核心维度实现了突破，这些维度都充分利用了与 Windows 系统的深度集成：

统一 GUI–API 混合执行

传统 API 执行方式精准高效，但需要针对特定应用实现对应接口，覆盖范围有限；而 GUI 执行方式更加通用灵活，但步骤更长，容易受到界面变动的影响。UFO² 创新地将 API 与 GUI 两种执行范式合二为一，通过统一的 Puppeteer 接口，实现两种执行模式的动态选择。

在实际任务执行中，UFO² 可以智能地根据操作环境与任务特性，自动判断是否优先使用 API 执行来提高速度与精准度，或者在 API 不足以完成任务时，灵活转向 GUI 操作，从而实现效率与通用性的最佳平衡，显著提升任务稳定性和鲁棒性。

图 - 2：GUI-API 操作的混合统一接口

混合控件感知

UFO² 实现了与 Windows 系统的深度融合，通过结合 Windows 原生 UI Automation（UIA）接口与先进视觉识别模型 OmniParser-v2，实现了对界面元素的混合检测与精准感知。这种方式不仅克服了传统视觉识别准确性不足的问题，同时也解决了纯粹依赖系统 API 检测范围有限的瓶颈。

实际应用场景中，尤其是在界面复杂、控件自定义或标准化程度低的场景下，UFO² 的混合感知能力有效提高了控件识别的准确性与覆盖率，从而保障了任务执行的稳定性与鲁棒性。