智东西
编译 陈骏达
编辑 Panken

智东西2月8日消息,24小时极速复现OpenAI Deep Research,还免费提供,这是开源AI社区Hugging Face做出的新贡献——一款开源的AI研究agent,不仅能胜任整理信息写报告的复杂任务,而且仅开放一天就在严苛的通用AI助手基准测试中达到55%的准确率(OpenAI原功能是67%)。

DeepSeek-R1在海外的现象级爆火,加速OpenAI推出免费的o3-mini、Deep Research等新模型与功能。然而,DeepSeek开源策略掀起的前沿模型复现潮,让广大网友已经不满足于OpenAI的闭源系统,而是希望用更低成本的开源系统实现同样的效果。

OpenAI的Deep Research能进行多步骤自主研究、信息深度整合以及复杂任务的处理,OpenAI在博客中透露,Deep Research由一个大模型和一个内部Agent框架组成。

复现时,Hugging Face团队基于微软的开源Agent系统,并用代码Agent框架进行优化,让Agent用代码来规划、表达其行动,这对提升系统表现的作用显著。

该团队还提出,未来可通过增加支持的文件格式数量、提出对文件进行更细粒度处理的建议以及使用基于视觉的网络浏览器,来进一步提升系统表现。

项目链接:https://huggingface.co/blog/open-deep-research

试用链接:https://m-ric-open-deep-research.hf.space/

一、代码Agent架构可显著提升性能,运行成本降低30%

Hugging Face团队本次复现OpenAI Deep Research的核心任务便是Agent框架的搭建。Agent框架是大模型上一层的架构,用于指导大模型进行浏览网页、阅读PDF等操作,并且按照一系列步骤组织上述操作。

将大模型整合进Agent框架可显著提升性能表现。在多项基准测试中,仅需使用基础的开源通用Agent架构smolagents库,就能将几款最近发布的前沿模型的表现提升至高60分。


▲Agent框架能显著提升大模型表现(图源:Hugging Face)

实际上,OpenAI也在发布Deep Research功能的博客文章中强调,在知识密集型的高难度基准测试“Humanity’s Last Exam”中,Deep Research的表现要明显好于独立运行的大模型。

在复现Deep Research功能时,Hugging Face团队主要采用代码Agent来提升传统Agent架构的表现。先前研究显示,让Agent用代码来规划、表达其行动具有4个优势,尤其是在表达复杂的行动序列时。

1、在下方案例中,用代码来表示行动比JSON要简洁许多。这一序列需要运行4个并行流,每个流包含5个连续行动。在JSON中,你需要生成20个JSON块,每个块在单独的步骤中;而若用代码表示,只需1个步骤。


▲研究来源:Paper page – Executable Code Actions Elicit Better LLM Agents

平均而言,论文显示代码行动比JSON少30%的步骤,这意味着生成的token也相应减少。由于大模型调用通常是Agent系统的主要成本,这意味着Agent系统的运行成本降低了约30%。

2、用代码来表示行动还能更方便地再利用常见库中的工具。

3、这种系统在基准测试中的表现更好,因为大模型在训练时广泛接触了代码数据,这种行动表达方式对它们来说更为直观。

4、更好的状态处理能力:在多模态任务中,如果需要存储图像、音频等内容后续使用,只需将其作为变量分配给状态。但在JSON中,必须让大模型在字典键中命名它,大模型后续能否理解和使用也还是未知数。

同时,Agent系统需要配备正确的工具集,Hugging Face的复现团队使用了微软研究院现成的的Magentic-One Agent,试图用最低的复杂性获得最高的性能。工具集中包含2个工具:

1、一个网络浏览器。虽然像Operator这样的完整网络浏览器交互需要达到全性能,但Hugging Face团队目前先使用了一个简单的基于文本的网络浏览器,作为概念验证。

2、一个简单的文本检查器,能够读取大量文本文件格式。

二、远超开源SOTA系统,还有三大提升空间

为测试上述系统的性能,Hugging Face团队使用了GAIA这一全面且难度较高的Agent测试基准,涉及许多基于大语言模型的挑战。

下方是一个测试集中的难题:

“在2008年的画作《乌兹别克斯坦刺绣》中展示的水果,哪些被用作1949年10月邮轮早餐菜单的一部分,该邮轮后来被用作电影《最后的航行》的浮动道具?请以逗号分隔列出这些水果,按照画作中从12点位置开始按顺时针方向排列的水果顺序,使用每个水果的复数形式。”

此类问题对Agent系统提出了多个挑战:识别水果需要用到多模态能力;搜集信息时需要理解信息间的相互依赖关系;输出回答时需要按照指定的格式。此外,系统还需将问题解决的轨迹按正确顺序串联起来。

解决此问题需要高级规划能力和严格的执行,这两个领域在使用时单独使用大模型时会遇到很多困难。

在GAIA的公共排行榜上,GPT-4在没有任何Agent设置的情况下,连7%的验证集分数都达不到。但通过Deep Research,OpenAI在验证集上达到了67.36%的分数,提升了一个数量级。


▲Deep Research在GAIA上的成绩(图源:OpenAI)

在Hugging Face 24小时的复现尝试中,代码Agent的使用对系统的整体表现提升明显。之前,Magentic-One是GIGA测试中表现最佳的开源系统,Hugging Face团队将其表现从46%提升至55.15%,这种性能提升主要归功于让Agent以代码的形式编写其动作。

当切换到以JSON而不是代码编写动作的标准Agent时,相同设置的验证集性能会立即下降到33%左右。

Hugging Face团队认为,未来此类系统还可以从三方面进行改进:

1、扩展可读取的文件格式数量。

2、提出对文件进行更细粒度处理的建议。

3、替换为基于视觉的网页浏览器(开源地址)。

结语:DeepSeek掀起的开源热潮持续

DeepSeek凭借其透明、可操作性强的发布与开源模式,成为了全球AI模型开源的最佳实践案例之一。

Hugging Face本次对OpenAI Deep Reasearch的复现,也正是顺应了DeepSeek掀起的开源热潮。这一趋势有望让前沿AI模型的技术进步惠及更广大的研究群体。

来源:Hugging Face

ad1 webp
ad2 webp
ad1 webp
ad2 webp