华人学者用搜索提升模型自我验证，让模型从数百尝试挑选正确尝试

Eric Zhao，目前是美国加州大学伯克利分校的一名博士生，师从于美国三院院士迈克尔·欧文·乔丹（Michael I. Jordan）。值得注意的是，图灵奖得主约书亚·本吉奥（Yoshua Bengio）和吴恩达等，也曾师从于乔丹院士 [1]。

图 | Eric Zhao（来源：https://eric-zhao.com/）

更早之前，Eric Zhao 在美国加州理工学院获得了理学学士学位。名师指导加上个人努力，让 Eric Zhao 在过去三年间先后获得 NeurIPS 最佳论文奖、美国国家科学基金会研究生研究奖学金和谷歌博士奖学金，并在 Google Rearch、Nvidia Research 和 Salesforce Research 等公司积累了实习经验。

最近，Eric Zhao 和合作者基于采样的搜索的扩展趋势，通过扩展基于采样的搜索的最简实现，仅仅使用随机采样和直接自我验证就能提供一种实用的推理方法，该方法让 Gemini v1.5 Pro 的推理能力在流行的基准测试中超越 OpenAI 的 o1-Preview。

这一成果挑战了“要想实现顶级模型性能就必须采取高度专业化训练或者采取复杂架构”的传统做法。

（来源：arXiv）

Eric Zhao 在 X 上写道：“通过随机抽取 200 个回复并进行自我验证，Gemini 1.5（一个古老的 2024 年初模型）击败了 o1-preview 并接近 o1。”“神奇的是，自我验证在规模化后自然变得更容易！你可能会认为，解决方案池越大，挑选出正确的解决方案就越难，但事实并非如此！”

据了解，对于基于采样的搜索的可扩展性，Eric Zhao 等人将其部分归因于一种隐式扩展现象，即从更大的响应池中进行采样，反过来会提高自我验证的准确性。

研究团队进一步提出两个通用原则，以用于通过测试时计算来提高自我验证能力：

第一个通用原则是，通过对比不同回答可以针对错误位置和幻觉位置提供关于有用的线索。

第二个通用原则是，不同的模型输出风格适用于不同的情境，尽管思维链对于推理非常有用，但是也更加难以验证。

研究团队还发现，尽管一些前沿模型能够实现准确验证，但是其开箱即用的验证能力却相当薄弱，因此他们通过引入一个基准，来衡量这些不足之处的改进情况。

基于采样的搜索——是一种利用测试时计算的简单范式，它涉及生成多个潜在响应并选择其中最好的一个，通常是让模型针对每个响应进行自我验证以便确定其正确性。

近期，语言模型领域的新进展凸显了测试时计算扩展的重要性，即在推理过程中使用更多计算资源能够增强模型的推理能力。

Eric Zhao 和合作者指出，提高测试时计算利用率的方法有很多，比如通过强化学习隐式地鼓励模型生成更长的响应，再比如还可以通过明确提示来达到这一目的。

但是，Eric Zhao 等人认为作为“生成-测试”方法的一种实例，基于采样的搜索——即模型通过随机采样或委托等方式生成多个响应并从中选择其推测为最佳的一个，仍是最自然的范式之一。

除了能与其他测试时计算扩展策略实现互补之外，基于采样的搜索不仅具有极高的并行性，并且能够实现任意程度的扩展。而要想实现这些目的，只需要采样更多响应即可。

因此，他们认为随着语言模型在前沿数学和科学问题上的应用，基于采样的搜索将发挥着越来越重要的作用。

其表示，尽管已有研究展示了基于采样的搜索方法所带来的优势，但是关于测试时计算扩展策略的规模趋势仍有许多问题有待解答。

为了进一步探索上述问题，Eric Zhao 等人研究了一种基于采样的搜索的简约且有效的实例，该实例使用语言模型通过随机采样生成一组候选响应，并通过使用自然语言来验证每个响应，以便能够选出最佳响应。

具体来说，该团队所考虑的情况是：模型必须自我验证其响应以便选择最佳答案，同时不做可以访问真实答案、或精确验证正确性的符号系统的硬性假设。

基于这一前提，他们探讨的问题是：当同时扩大采样响应的数量和验证能力时会展现出哪些测试时间扩展趋势？扩展这种基于采样的搜索范例的极限是什么？以及在扩大搜索规模时要将验证能力连续扩展到什么程度？

通过本次研究，他们证明即使将测试时计算资源扩展到远超自一致性方法的性能饱和点，基于采样的搜索在推理性能上仍能持续改进。（注：自一致性方法，是一种通过模型内部机制确保输出稳定性和逻辑一致性的技术，其核心是通过多路径推理和结果聚合提升模型的可靠性和泛化能力。）

在规模较大的应用中，即便他们采用最简单的实现方式，推理准确性也能得到显著提升。在 LiveBench 和 AIME 等推理基准测试中，Gemini v1.5 Pro 的性能超越了 OpenAI 的 o1 - Preview 版。与此同时，Gemini v1.5 Flash 的性能也能超越 Gemini v1.5 Pro，并在后一项基准测试中呈现出持续幂律扩展的特性。

这不仅凸显了基于采样的搜索对于模型扩展能力的重要性，还表明基于采样的搜索不仅能作为一种基线以用于对比其他测试时计算资源扩展策略，并能用于衡量模型搜索能力是否真正得到了提升。

研究人员在论文中表示，他们将基于采样的搜索的强烈扩展趋势，主要归因于一种隐式扩展现象。

人们通常认为采样更多的响应，会给验证带来更大的负担并会降低验证的准确性。但是，该团队观察到在扩大采样规模之后，会间接地提高验证准确性。

从宏观层面来看，这是因为“好响应”比“差响应”更容易被验证，而扩大采样规模则能增加“好响应”的候选响应数量。

进一步地，研究团队制定了两种利用测试时计算来扩展验证能力的策略：

第一种策略是直接比较候选答案；第二种策略是针对特定任务的候选回答加以重写。

前者利用候选响应之间的差异，来为错误可能出现的位置提供强烈信号，从而能够弥补语言模型的如下核心弱点——即除非明确指出错误位置，否则语言模型很难识别出错误和幻觉。

后者基于研究团队对于输出风格适用性的观察，即在生成回复的时候，思维链输出格式的确是有益的，但相比更正式、更符合数学常规的写作风格它却更加难以验证。

在论文中，研究团队通过下表介绍了本次发现：即通过有效的自我验证，仅仅通过扩大基于采样的搜索范围，就足以在推理和数学基准测试上让模型性能接近最先进模型的性能。

（来源：arXiv）

具体来说，他们展示了 Gemini v1.5 Pro 模型在以下情况下的准确性：每个问题只尝试一个解决方案（Pass@1），尝试 200 个解决方案并选择最常见的最终答案（Consistency@200），以及在基于采样的搜索中尝试 200 个解决方案并评估其正确性，最终选择得分最高的解决方案（Verification@200）。

需要说明的是：Pass@1，是一种常用于评估生成模型的指标，旨在衡量模型在给定任务中第一次生成的答案是否正确。Consistency，指的是模型在不同情境下能够保持一致的行为和输出。Verification，是一种评估模型输出稳定性和逻辑一致性的指标。

在基于采样的搜索（Verification@200）方面，Gemini v1.5 的性能超越了 OpenAI 的 o1-Preview。

研究中，课题组探讨了推理能力跟随两个基本测试时计算轴的变化规律。

出于计算方面的考虑，研究人员采用了无视平分的简化版算法 1。

所有数据都基于 20 个随机种子进行平均，其中每次运行都会从一次主运行中抽取解决方案和验证分数进行子采样。主运行会为每个问题抽取 200 个解决方案，并为每个解决方案抽取 50 个验证分数。

（来源：arXiv）

在本次研究之中：搜索，指的是用于发现候选解决方案的计算过程。验证，指的用于仔细检查候选解决方案的计算。

下图展示了研究团队在扩大搜索和验证规模时，每个基准测试的 Verification@k 热图。

（来源：arXiv）

除了在规模的两个维度上都存在明显的预热成本之外，研究团队还观察到当搜索和验证都实现规模化时，能取得最为显著的性能提升。（注：预热成本，主要指在模型训练或部署前需要投入的初始资源成本。）

这些趋势还表明，基于采样的搜索的性能在本次基准测试中尚未达到饱和状态。

在 AIME 基准测试中，这种扩展趋势最为明显，即性能会受到 k（搜索）的瓶颈限制。研究团队将这一瓶颈限制归因于 AIME 问题的难度，其认为这些高难度问题导致获得正确解的概率变得极低。

（来源：arXiv）

通过增加采样点即增大 k 值，研究人员沿搜索轴来扩展基于采样的搜索范围，这将对性能产生两种相互抵消的影响：

第一个影响是验证器必须区分出更多的解决方案，从而增加了出错的可能性。

第二个影响是生成器更有可能产生至少一个能得出正确最终解的解决方案。

为了隔离第一个影响，研究团队研究了模型在模棱两可问题上的 Verification@k 准确率，即模型在 k 个候选解决方案中至少有一个方案能够达成最终的正确答案。

在控制 Pass@k 的增长之后，如果增加 k 值但是保持验证尝试次数不变，预计准确率会呈下降趋势。

然而，他们却发现了完全相反的趋势，即准确率会随 k 的增加而提高。

（来源：arXiv）

这表明当增加生成响应的数量时，不仅可以增加至少一个响应正确的机会，还可以增加至少一个具有更高质量的正确响应的机会。

在本次研究中，质量——可以理解为答案的严谨性或无瑕疵性。质量较低的解决方案可能在大体上是正确的，但是无法证明其推理过程中的某个关键步骤的合理性，或者无法证明在某个非关键步骤中是否存在错误。

隐式扩展表明，通过使用功能更强大的基础模型，验证结果应该变得更加准确，因此基于采样的搜索应该也能变得更加有效，从而产生更加合理的推理以及更加令人信服的正确证明。

研究中，课题组还观察到这一现象：Verification@k 超出了 Consistency@k 饱和点的扩展。

在技术难度最高的基准测试 AIME 上，Verification@k 展现出幂律扩展能力，而 Consistency@k 则开始趋于稳定。

Consistency@k 的快速饱和可以归因如下：尽管它在小规模上能够有效地消除噪声错误，但是当它收敛到最可能的响应时，必然会趋于稳定。例如，在 AIME 上，Consistency@50 的准确率与 Consistency@10000 相同。

研究人员指出，Consistency@k 不太可能返回正确解。但是，对于一个真实有效的验证器来说，它仍然有希望在响应分布的长尾中，检测到罕见但正确的解决方案。

研究团队在 2024 年 AIME 的考试中就找到了一个这样的例子。其中，Gemini v1.5 模型在识别考试 II 第 11 题的正确答案时遇到了困难。在 200 个从随机抽样的 Gemini v1.5 解决方案中得出的最终答案中，只有一个答案是正确的。

相比之下，从响应分布的长尾部分，验证器能够识别出那些得出正确答案的解决方案。鉴于扩展验证能力是推动搜索性能提升的关键，这让模型能够在置信度为 98% 和 76% 这些看似正确的答案之间进行区分。

事实上，既然验证器能够如此有效地利用模型响应分布的长尾，这也表明 Pass@k（而不是 Pass@1）应该成为搜索应用程序的关键性能指标。

研究人员指出，现有的后训练技术例如人类反馈强化学习技术旨在针对 Pass@1 进行优化，但这可能会以牺牲 Pass@k 为代价并会抑制模型的搜索能力。

如前所述，研究团队还确定了两条通用原则，以便更有效地引导语言模型进行自我验证。

第一个通用原则是：通过比较答案来定位错误。候选解决方案之间的不一致能够强烈暗示错误的潜在位置，从而能够应对模型在识别错误和出现幻觉时召回率低（即经常忽略）的问题。这是因为当提供错误所在的位置时，模型就能识别出错误。具体来说，可以通过向验证器提供其他答案来比较候选答案，从而改进候选答案的自我验证。

第二个通用原则是：通过重写响应来适应输出风格。语言模型的最佳输出风格应该取决于任务类型。在生成响应的时候，采用线性思维链是有效的。然而，当以严谨、层次化和模块化的方式编写时，响应更容易得到验证。这时，就可以利用这一特性，让验证器首先将候选回答改写为可扩展的、符合数学常规的“定理-引理-证明”格式（theorem-lemma-proof format），而不是直接去评估思维链。（注：当 AI 生成数学解答或生成代码时，“定理-引理-证明”格式是验证器判断答案正确性的关键依据。）

另外，这两个通用原则还为利用测试时计算资源来扩展自我验证能力提供了手段。一方面，它们可以通过采样为验证器提供更多可供对比的响应。另一方面，它们能以更高的严谨性和结构化程度针对响应进行改写。

总的来说，本次论文研究了基于采样的搜索的规模化趋势。研究团队预计随着语言模型将被用于解决越来越复杂的问题，同时可被使用的计算资源越来越大，因此基于采样的搜索将发挥至关重要的作用。另外，随着模型学会利用隐式扩展和输出样式适用性等原则，以及基于采样的搜索的扩展率能够得到提高，模型的自我验证能力将在短期内迅速提升。

需要说明的是，已有业内人士针对本次成果提出了不同意见。加拿大阿尔伯塔大学人工智能研究员和助理教授马修·古兹迪亚尔（Matthew Guzdial）告诉媒体，这种方法在有良好的“评估函数”时最有效。换句话说，当一个问题的最佳答案可以轻松确定时这种方法最为有效，但是大多数查询并不是那么黑白分明。不过，Eric Zhao 并不认同这一观点。至于本次成果是否真的能够站得住脚，或许还需更多实践来检验。

参考资料：

https://baike.baidu.com/item/%E8%BF%88%E5%85%8B%E5%B0%94%C2%B7%E6%AC%A7%E6%96%87%C2%B7%E4%B9%94%E4%B8%B9/20825263

https://arxiv.org/pdf/2502.01839

运营/排版：何晨龙