新智元报道
编辑:好困 犀牛
【新智元导读】最近,来自香港大学的3位研究员开源了一款平替版「Deep Research」,只需1美元即可拥有全自动AI研究助理!它能自主搜索、分析互联网信息,还能处理复杂编程任务,甚至能自动解析PDF、生成可视化报告。性能位列全球第三,开源第一。
OpenAI的Deep Research一经发布便引发了全网的热议。
作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。
在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。
然而,目前Deep Research仅向Pro用户开放,每月200美元的订阅费用让人望而却步。
CEO奥特曼表示,Deep Research已展现出完成具有实际经济价值任务的能力,这标志着AI发展的一个重要里程碑
为推动这项技术的普及,来自香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research, 并一举在 General AI A ssistant bench mark GAIA评测中夺得第三 ,是开源方案中的最优解 。
值得注意的是,Auto-Deep-Research仅基于Claude-3.5-Sonnet构建,在成本效益上具有显著优势。
此外,系统还支持DeepSeek、Hugging Face等主流模型,为用户提供了更多选择。
技术驱动全自动框架AutoAgent:https://github.com/HKUDS/AutoAgent
Auto-Deep-Research:https://github.com/HKUDS/Auto-Deep-Research
论文地址:https://arxiv.org/abs/2502.05957
目前,团队还在开发更多前沿功能,包括Claude的Model Context Protocol(MCP)和GUI Agent等。
实际案例演示
让我们通过一个具体案例,深入了解Auto-Deep-Research的实际应用能力。
以下是AutoAgent团队展示的一个金融分析案例,展现了系统如何处理复杂的多步骤分析任务。
Task:Please analyze the Apple and Microsoft 10-K forms that I uploaded, search online for current news about these two companies, and then help me conduct a quantitative analysis based on the information you find, create visualizations, and generate a detailed report.
这个任务展示了Auto-Deep-Research处理复杂分析场景的强大能力。
系统需要深入解析两份总计超过200页的PDF文档,同时进行网络信息搜索、数据分析与可视化,最终生成全面的分析报告。
演示视频通过三个并行窗口直观展示了整个工作流程:左侧是Auto-Deep-Research的终端交互界面,右上显示Agent 的文件工作目录,右下则是Agent 操控的浏览器窗口。
在用户上传文件并明确需求后,系统便全自动运行,依次完成文件解析、网络搜索、代码编写与调试等任务。
整个过程无需人工干预,仅用约10分钟就生成了一份专业的分析报告和配套的数据可视化成果,充分体现了系统的自动化处理能力。
Agent生成的和图像如下所示:(报告见文末)
最强开源Deep Research
Auto-Deep-Research采用模块化的多Agent架构设计,由三个专业子Agent和一个核心调度器(Orchestrator Agent)组成:
Web Agent专注于互联网信息的无障碍访问和深度搜索
Coding Agent负责编程实现和调试,具备严密的逻辑分析能力
Local File Agent致力于多格式文件的解析和内容理解
网络搜索组件Web Agent是Auto-Deep-Research的核心模块之一,它整合了一套完整的网络工具集,能够高效执行从基础搜索到文件下载的各类网络任务。
Web Agent将日常网页浏览行为抽象为10个高级工具,包括点击(click)、网页搜索(web_search)、访问网址(visit_url)等核心功能。这些工具覆盖了网页搜索、页面导航、内容浏览和文件下载等常见操作场景。
在技术架构上,Web Agent基于BrowserGym框架开发,通过将底层浏览器操作封装为高级工具集,不仅提升了操作灵活性,也为功能扩展提供了良好基础。这种模块化设计确保了Web Agent能够从容应对各类网络任务需求。
编程专家助手Coding Agent
编程专家组件Coding Agent是一个全能型编程助手,它能够熟练处理数据分析、机器学习到系统管理等各类编程任务,无论是复杂计算还是自动化操作,都能高效完成。
为实现智能编程,Coding Agent配备了11个专业工具,涵盖代码脚本创建、Python代码执行、特定命令实现以及目录管理等核心功能。这套完整的工具体系使其能够从容应对各类编程需求。
在系统架构上,Coding Agent采用Docker沙箱环境确保代码执行安全,并支持与E2B等第三方沙箱系统无缝集成。同时,其交互式终端环境设计让代码执行过程和结果一目了然,大大提升了操作体验。
文件分析大师Local File Agent
文件处理专家Local File Agent是一个全能型文件管理专家,它能够统一处理和分析各类本地文件,让复杂的文件处理工作变得简单高效。
Local File Agent最突出的优势在于其强大的文件兼容性。它可以处理几乎所有常见格式,包括文档类(doc、pdf、txt、ppt)、多媒体类(mp4、mov、wav、mp3)以及数据类(csv、xlsx)等多模态文件。通过将不同格式统一转换为Markdown,实现了高效的文件分析和处理。
在用户体验方面,Local File Agent采用交互式Markdown浏览器环境,即使面对超长文本或复杂文件,也能通过分页显示实现清晰呈现,使文件处理过程更加流畅直观。
高效调配,性能领先
Auto-Deep-Research采用精简而高效的架构设计,仅需一个核心调度器——Orchestrator Agent便可驱动整个系统高效运转。
其工作流程清晰明确:Orchestrator Agent接收任务后,将其分解为多个子任务并分派给专业Agent。各Agent完成子任务后,结果返回给调度器进行评估,随后动态调整并分配新的子任务,循环往复直至完成整体目标。
这种优雅而强大的设计在GAIA benchmark评测中取得了骄人成绩:总排名第三,开源方案中位列第一,仅次于OpenAI等闭源系统。
值得一提的是,这是前三名中唯一采用Claude-3.5-Donnet的方案,无需依赖更昂贵的o1系列深度思考模型,从而也使其成为了前三方案中最具性价比的选择。
更令人欣喜的是,这个框架具备强大的扩展性,不仅支持接入Deepseek-R1模型,还可部署本地开源模型。
这意味着,人人都可以搭建属于自己的Deep Research系统,让智能研究助手不再是可望而不可即的梦想。
AutoAgent框架
值得一提的是,团队还发布了一个的不需要coding的智能体开发框架——AutoAgent。
下图展示了AutoAgent的全自动、语言驱动的通用智能体系统。其核心组件包括智能体系统实用程序、由LLM驱动的可操作引擎、自管理文件系统和自博弈智能体定制模块。
这是一个轻量级存靠语言驱动的Agent构建平台,让用户只需通过自然语言描述就能轻松创建专属AI助手,完全无需编程基础。
前文介绍的Auto-Deep-Research正是基于AutoAgent开发的一个典型应用。
作为一个全方位的Agent开发生态系统,AutoAgent不仅提供了Auto-Deep-Research这样的即用解决方案,还包含更多强大组件:
系统的智慧核心:智能决策引擎LLM Engine
LLM Engine作为系统的中枢大脑,承担着理解用户需求、制定执行策略和协调多Agent协作的重要职责。这个强大的决策引擎让人类用户与AI助手之间的互动达到前所未有的流畅度。
在架构设计上,团队选用LiteLLM作为标准化接口,实现了与超过100种主流语言模型的无缝对接。这种设计就像一个通用翻译器,确保系统能够与各类AI模型顺畅交互。同时,LLM Engine采用连续记忆机制,将历史行动和观察结果作为决策依据,不断优化判断能力。
在技术实现层面,团队创新性地设计了双模式工具调用机制:
1. 面向原生支持工具调用的商业模型的「直接调用模式」;
2. 通过将工具调用转换为结构化XML代码生成任务的「转换调用模式」,让更多开源模型也能融入系统生态。
这种灵活的设计既保障了系统效能,又为用户提供了更广泛的模型选择空间。
知识检索的智慧管家:智能文件管理系统Vector DB
Vector DB是一个先进的向量数据库系统,为AI助手提供强大的文件理解和检索能力。它就像一位智能管家,能够自动化处理和组织用户提供的各类文件资源,实现知识的高效管理。
在技术架构上,系统配备了完整的智能工具链。当用户上传PDF、Word、文本文件,甚至是压缩包或文件夹时,系统会自动进行格式统一化处理,并通过save_raw_docs_to_vector_db工具将内容存储到指定的数据库集合中,确保数据的规范化管理。
在实际应用场景中,AI助手可以利用query_db和answer_query等专业工具,实现对存储内容的精准检索和智能问答。这种设计让AI助手拥有了自主管理专属知识库的能力,大大提升了信息获取和处理效率。相当于为AI配备了一个智能知识助理,随时待命调用所需信息。
打造专属AI助手的平台:智能定制系统Self-Play Agent
智能定制系统是一个创新型自编程框架,让用户能够轻松构建场景化的AI助手和多Agent系统。它就像一位经验丰富的系统架构师,能够将用户的构想精准转化为实际应用,而整个过程简单直观。
系统提供两种灵活的定制模式:简洁高效的「直接创建模式」和深度定制的「工作流创建模式」。
在直接创建模式中,即使是技术小白也能轻松打造专业级多Agent系统。例如,当用户需要一个投资组合管理助手时,只需提供基本需求描述,系统就能自动完成创建。这个过程分为三个核心步骤:需求分析与资源评估、Agent架构规划、XML规范文件生成。
为增强系统能力,团队开发了智能工具编辑器,实现与LangChain、RapidAPI和Hugging Face等主流平台的无缝集成。目前已支持8大类共145个API接口和9类模型库。编辑器不仅能自动生成工具代码,还会进行严格的测试验证,确保工具可靠运行。
在多Agent协作场景中,系统会自动部署智能调度员(Orchestrator Agent)统筹各专业Agent的工作,如同一位富有经验的项目经理,确保团队协作的流畅性。
工作流创建模式则为专业用户提供了更深度的定制能力。通过创新的事件驱动机制,实现了Agent间更灵活的协作模式。整个工作流由工作流表单Agent(负责需求分析和逻辑设计)和工作流编辑Agent(负责实现和执行)协同完成,既保证了强大功能,又兼具极高灵活性。
One More Thing
前文提到的报告如下:
# Apple vs Microsoft: Q4 FY2024 Financial Analysis
## Executive Summary
This analysis compares the financial performance of Apple and Microsoft for Q4 FY2024. Both companies showed strong revenue growth, with Microsoft leading in terms of YoY growth rate but Apple maintaining higher absolute revenue.
## Financial Performance Analysis
### Revenue
- Apple: $94.9B (↑6% YoY)
- Microsoft: $64.7B (↑15% YoY)
### Key Metrics
1. Growth Rates
- Microsoft showed stronger YoY growth at 15%
- Apple's more modest 6% growth reflects its larger revenue base
2. Segment Performance
- Apple's services revenue reached an all-time high
- Microsoft's Intelligent Cloud revenue grew 19% YoY to $28.5B
3. Profitability
- Microsoft reported net income of $22B (↑10% YoY)
- Apple's EPS was $0.97 ($1.64 excluding one-time charges)
## Segment Analysis
### Apple
- Products: 75.4% of revenue
- Services: 24.6% of revenue
- Services reached all-time high
- Hardware segments showing maturity
### Microsoft
- Intelligent Cloud: 44.0% of revenue
- Strong cloud performance
- Hardware challenges (Surface revenue decline)
- Gaming segment growth through Activision Blizzard
## Market Position and Competition
### Strengths
Apple:
- Largest tech company by revenue
- Strong services growth
- High customer loyalty
- Robust cash flow ($27B)
Microsoft:
- Cloud leadership
- Strong enterprise presence
- Successful gaming expansion
- AI integration
### Challenges
Apple:
- Hardware segment maturity
- Regulatory pressures
- China market dependence
Microsoft:
- Hardware division struggles
- Gaming hardware decline
- Integration costs
## Future Outlook and Recommendations
### Apple
1. Continue services expansion
2. Leverage AI integration
3. Explore new hardware categories
4. Focus on emerging markets
### Microsoft
1. Maintain cloud momentum
2. Accelerate AI deployment
3. Restructure hardware division
4. Integrate gaming acquisitions
## Conclusion
Both companies demonstrate strong financial health and market leadership, with different growth drivers. Microsoft shows higher growth rates while Apple maintains larger absolute revenue. Cloud services and AI integration are key future growth areas for both companies.
参考资料:
https://arxiv.org/abs/2502.05957