真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

机器之心编译

编辑：江龙

最近一段时间，智能体（Agent）再次成为 AI 领域热议的焦点。

2025 年 1 月，OpenAI 发布了名为 DeepResearch 的 o3 模型变种，专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练，DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。无独有偶，Claude Sonnet 3.7 也成功地将同样的强化学习方法应用于代码领域，在复杂的编程任务中展现出超越了以往模型的组合应用效果。

正如摩根斯坦利学者 William Brown 在演讲中所说的：「LLM 智能体已能够完成长时间、多步骤的任务了。」

这一进展不仅让智能体的能力迈上了一个新台阶，也引发了一个更深层的问题：LLM 智能体究竟是什么？

2024 年 12 月，Anthropic 给出了一个全新的定义：「LLM 智能体是能够动态指导自身流程和工具使用，并保持对任务完成方式控制的系统。」

与之相对，目前更为普遍的智能体实际上都是工作流系统（workflows），也就是通过预设的代码和规则来协调 LLM 和工具的系统，例如最近备受关注的 Manus AI。

对于很多开发者而言，这些 LLM 智能体形成的工作流系统能否提高生产力、在多大程度上提高，才是关键问题。

在近期的测试中，开发者 Alexander Doria 发现了一些显著的局限性，并写成博客分享给大家。

博客地址：https://vintagedata.org/blog/posts/designing-llm-agents

「我在周末进行的所有测试都显示出一个结果，即工作流系统存在着一些根本性局限，这些局限早在 AutoGPT 时代就已显现，而在搜索领域表现得尤为明显。」

不能有效制定计划，经常中途卡壳；
不能记忆内容，无法处理超过 5-10 分钟的任务；
无法长期有效执行任务，容易因连续的小错误最终彻底失败。

作者以对大语言模型智能体「LLM 智能体」的定义为出发点。它基于大型实验室的有限信息、开放研究生态系统中不断涌现的复现成果，再结合一些个人推测，尽力对我们目前所了解的内容进行全面总结。

博客主要内容如下：

LLM 智能体的「苦涩教训」

传统的智能体与基础大语言模型（base LLM）完全不同。

在传统的强化学习研究中，智能体被置于受限的环境中，就像在迷宫里行走，智能体的每个动作都有物理或规则上的约束。即便如此，智能体仍保留了一定程度的自由，因为解决谜题或游戏的方法往往不止一种。然而，每一步行动都必须以最终获胜和获得奖励为目标进行计算。随着时间的推移，高效的智能体会记住过去的行动，并逐步总结出模式和启发式策略来优化其行为。

这一过程被称为「搜索」，智能体在迷宫中的探索行为与用户在搜索引擎上的点击模式如出一辙。搜索研究有着长达数十年的丰富历史。例如，据传为 OpenAI 新一代模型提供支持的 Q-star 算法，便是源自 1968 年的 A-Star 搜索算法。最近，Pufferlib 进行的宝可梦训练实验便是这一过程的绝佳例证。在实验中，智能体被观察到积极寻找最优路径，失败后不断尝试，通过反复试错来优化策略。

然而，大语言模型的基础逻辑恰恰相反：

智能体能记住环境，但基础 LLM 不能，它们只能处理当前窗口内的信息；
智能体受现实条件限制，但基础 LLM 生成的是概率最高的文本，随时可能「跑题」；
智能体能规划长期策略，基础 LLM 却只能做好单步推理，面对多步推理任务很快就会「超载」。

目前，大部分 LLM 智能体的做法是利用预定义的提示词（prompt）和规则来引导模型。然而，这种方法注定会遇到「苦涩的教训」（Bitter Lesson）。所谓教训，是指人们往往倾向于将自己的知识硬编码到系统中，短期内可能效果显著，但长期来看却严重限制了系统的发展潜力。真正的突破总是来自于搜索与学习能力的提升，而非人为规则的堆砌。这一教训提醒我们，过度依赖规则设计可能会阻碍系统的自我优化和进化。

这就是为什么类似 Manus AI 这类工作流系统无法顺利地订机票或教你徒手打虎 —— 它们本质上是被苦涩教训咬了一口。靠提示词和规则无法持续扩展，你必须从根本上设计能够真正搜索、规划、行动的系统。

强化学习 + 推理：LLM 智能体的「成功秘诀」

真正的 LLM 智能体，应该是什么样呢？这是一个复杂的问题，目前公开的信息很少。Anthropic、OpenAI、DeepMind 等少数实验室掌握着关键知识。目前，我们只能从现有的研究中尝试来推测：

1. 强化学习 RL：与传统智能体类似，LLM 智能体也通过强化学习进行训练。这里的「迷宫」是所有可能的文本组合，而「出口」或「奖励」则是最终的目标。验证是否达成奖励的过程被称为「验证器」——William Brown 新开发的验证器库正是为此而生。目前，验证器主要用于形式化结果，如数学方程或编程代码。但 Kalomaze 的研究表明，通过训练专门分类器，也可为非严格可验证的输出构建验证器。值得注意的是，语言模型在评估方面的表现优于生成，因此即使用小型 LLM-as-judge，也能显著提升性能和奖励设计。

2. 草稿模式（Drafts）：LLM 智能体的训练依赖于生成草稿并同时评估。这一选择并非显而易见，因为早期研究主要集中在扩展搜索到整个 token 序列。计算限制和「推理」模型的突破推动了这一转变。典型的训练过程是让模型生成逻辑序列，假设能得出正确答案的序列更可能是正确的。这可能导致反直觉的结果（如 DeepSeek R0 模型偶尔在英语和中文间切换）。然而，正如苦涩的教训所示，强化学习只关注结果的有效性，甚至允许非正统或计划外的捷径。就像智能体在迷宫中寻找出路，语言模型必须通过纯粹推理找到路径 —— 没有预定义提示，只有奖励和获取奖励的方式。

3. 结构化输出（rubric）：LLM 草稿通常被预定义为结构化数据部分，以便于奖励验证，并在一定程度上简化整体推理过程。这是一种「评分标准工程」，既可以直接作为奖励函数进行管理，也可以在大型实验室的训练设置中通过后训练阶段实现。

4. 多步训练：LLM 智能体的训练需要大量草稿和多步骤迭代。搜索领域的情况尤其如此：我们不会一次性评估搜索结果，而是评估模型获取资源、处理结果、进一步获取资源、调整计划、回溯等能力。因此，DeepSeek 的 GRPO 结合 vllm 的文本生成成为当前首选方法。近期，我发布了一个基于 William Brown 工作的代码笔记本，成功在 Google Colab 提供的一块 A100 GPU 上运行了 GRPO。计算需求的降低将是未来几年强化学习和智能体设计普及的关键因素。

如何实现规模化？

以上是基础构建模块，但从这些到 OpenAI 的 DeepResearch 以及其他能够处理长动作序列的智能体，还有一段距离。请允许我做一些推测。

目前的开放强化学习 / 推理研究主要集中在数学领域，因为我们拥有大量数学练习题，其中一些被 Common Crawl 收录，并由 HuggingFace 通过分类器提取。然而，对于许多其他领域（尤其是搜索领域），我们缺乏相关数据，因为我们需要真实的动作序列：日志、点击记录、行为模式等。我不久前曾在日志分析领域工作过，模型（虽然仍在使用马尔可夫链，但这个领域变化很快）仍然常在 20 世纪 90 年代末泄露的 AOL 数据上进行训练。最近，至少有一个重要的公开数据集被引入：Wikipedia Clickstream，这是一组从一篇维基百科文章到另一篇文章的匿名点击轨迹数据。

但让我问一个简单的问题：这个数据集在 HuggingFace 上吗？没有。

事实上，HuggingFace 上几乎没有真正能增强规划能力的「智能体数据」。整个领域仍然默认 LLM 模型需要通过自定义的规则系统进行编排。我甚至不确定 OpenAI 或 Anthropic 是否拥有足够数量的此类数据。这至少是一个传统科技公司占据强势地位的领域，而且没有简单的替代方案：你无法购买谷歌庞大的用户搜索历史数据。

目前能想到的解决方法是：通过模拟直接生成数据。传统的强化学习模型并不依赖过往的实例。它们通过广泛且反复的搜索来推断出约束条件和过度策略。一旦应用到搜索领域，典型的强化学习方法与博弈中的强化学习并无太大差异：让模型自由探索，每当它找到正确答案时就给予奖励。这可能是一个漫长的探索过程。就好比你要找出一篇 20 世纪 60 年代被遗忘的苏联论文中记载的某个特定化学实验。通过纯粹的蛮力，也许强制执行一些语言查询变化，模型最终偶然找到了正确结果。然后，它可以汇总导致这一结果的所有因素，从而使这一发现在未来更有可能实现。

我们来做一些简单的计算。在典型的强化学习（RL）设计中，以 GRPO 为例，一次可以同时进行 16 个草稿的探索 —— 如果大型实验室训练的模型采用更高的草稿迭代次数，我也不会感到意外。每个草稿可能会依次浏览至少 100 个不同的页面。这意味着一次就有 2000 个潜在查询，而这仅仅只是一步。一个复杂的强化学习训练序列可能需要进行数十万步（这也是我认为当前训练正处于中期阶段的原因之一），并且要处理各种各样的任务，尤其是针对像通用搜索能力这样复杂的任务。如此算来，一个训练序列就需要数亿次的单独连接 —— 在这个过程中，甚至可能会导致一些常用学术资源遭受类似分布式拒绝服务（DDoS）攻击的情况。这显然并不理想，此时，网络带宽而非实际计算能力，成了主要的限制因素。

Game RL 面临着类似的限制。这就是为什么像 Pufferlib 这样的 SOTA 方法会「从学习库的角度将环境包装成 Atari，而不会失去通用性」：RL 模型只需要看到它们所需使用的信息。当这种方法应用于搜索领域时，涉及到借助大型的 Common Crawl 数据转储，并将数据伪装成通过 Web 处理的样子，包含 url、api 调用和其他典型的 http 工件。而实际上，这些数据早已存储在本地具有快速查询能力的数据框中。

因此，我推测用于搜索的大语言模型强化学习智能体可以通过以下方式进行训练：

利用固定的数据集创建一个大型的网络搜索模拟环境，并持续将数据「转换」后反馈给模型。通过这种方式，让模型仿佛置身于真实的网络搜索场景中进行学习。
使用某种形式的轻量级 SFT（如 DeepSeek 的 SFT-RL-SFT-RL 步骤）预冷模型，可能基于可以找到的任何现有搜索模式。其总体思路是预先规范模型的推理和输出方式，从而加快实际强化学习训练的速度，这类似于进行某种预定义的规则设计。
准备或多或少复杂的查询，并将相关结果作为验证器。我唯一的猜测是，它涉及一些复杂的合成管道，从现有资源进行反向翻译，或者可能只是来自博士级注释者的非常昂贵的注释。
多步骤 RL 中的实际训练。模型提交查询、发起搜索、发送结果、浏览页面或重新表述结果，所有这些都是多步骤完成的。从模型的角度来看，它就像是在浏览网页，但所有这些数据交换都是由搜索模拟器在后台准备的。
也许一旦模型在搜索方面足够好，就会重新进行另一轮 RL 和 SFT，这次更专注于编写最终的综合体。同样，这可能涉及一个复杂的合成流程，其中输出会转变为输入，例如将原始的长篇报告拆分成小块，然后通过推理将它们重新组合起来。

告别对智能体进行提示

最终，我们得到了一个真正的智能体模型。它在实践中会如何改变标准的工作流程或模型编排呢？仅仅是整体质量的提升，还是一种全新的范式转变？

让我们回顾一下 Anthropic 对智能体的定义：LLM 智能体「能够动态地引导自身的处理流程和工具使用，自主掌控任务的完成方式」。我将再次以我较为熟悉的搜索场景为例进行说明。

一直以来，有很多人猜测检索增强生成（RAG）会被具备长上下文处理能力的直接大语言模型应用所取代。但这种情况并未发生，原因有很多：长上下文处理计算成本高昂，在处理相对复杂的查询时准确性欠佳，而且输入信息的可追溯性较差。真正具备智能体能力的搜索大语言模型并不会取代 RAG。实际可能发生的情况是，在很大程度上实现 RAG 的自动化，并整合向量数据库、路由和重排序等复杂操作。

一个典型的搜索过程可能会按照以下方式进行：

分析、分解查询，并对用户意图做出一些假设。
如果查询不清楚，可能会立即提示用户返回（OpenAI DeepResearch 已经这样做了）。
随后，模型既可以开展通用搜索，也可以在合适的情况下，直接转向更专业的研究资源。该模型已经记住了标准的应用程序编程接口（API）方案，能够直接调用它们。为节省推理时间，模型可优先借助现有的网络「模拟」版本，例如各类 API、网站地图以及庞大的数据网络生态系统。
搜索序列经过学习和训练。该模型可以放弃错误的方向。或者它可以像专业知识工作者那样走另一条路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的结果证明了这种能力：通过一系列内部推理，可以正确定位索引不良的来源。
搜索序列经过学习和训练。模型能够及时放弃错误的搜索方向，或者像专业知识工作者那样另辟蹊径。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的结果，就证明了这种能力：通过一系列的内部推理，模型能够准确找到索引不佳的资源。
每一步操作和整个过程都会作为内部推理轨迹被记录下来，从而在一定程度上为搜索结果提供可解释性。

简而言之，搜索过程是直接设计的。LLM 智能体充分利用现有的搜索基础设施，并尽其所能以巧妙的方式开展搜索。目前不需要额外的数据准备。也不需要训练用户与生成式 AI 系统交互。正如 Tim Berners-Lee 十多年前强调的那样，「思考 Agent 的一种方式是，如果用户明确要求，程序在每个实例中都会执行用户希望它执行的操作。」

现在，为了更清楚地了解实际投入生产的 LLM 智能体，你可以开始将这种方法迁移到其他领域。真正的网络工程智能体同样能够直接与现有基础设施交互，根据需求生成设备配置（如路由器、交换机、防火墙），分析网络拓扑并提出优化建议或解析错误日志以识别网络问题的根本原因。真正的金融智能体将接受培训，以提供竞争数据标准的无缝和准确翻译（如 ISO 20022 到 MT103）。目前，仅靠一系列系统提示是无法完成上述任何一项任务的。

目前，唯一能够开发真正 LLM 智能体的只有大型实验室。它们掌握着所有优势：专业技术、拥有部分数据（或者至少掌握合成数据的方法）以及将它们的模型转化为产品的总体愿景。我不确定这种技术集中是否是一件好事，尽管资金生态系统不愿将真正的模型训练视为长期颠覆和价值创造的实际来源，这在很大程度上助长了这种集中化现象。

我一般不喜欢夸大其词。然而，鉴于 LLM 智能体具有巨大的颠覆潜力和价值获取能力，我坚信让 LLM 智能体的训练和部署走向大众化已刻不容缓。因此，开放验证器、GRPO 训练样本，以及可能会很快出现的复杂合成管道和模拟器。

2025 年会是智能体元年吗？有可能。让我们拭目以待。

参考内容：

https://vintagedata.org/blog/posts/designing-llm-agents

https://x.com/dotey/status/1900179777635356827