越聪明越会撒谎？OpenAI推理模型o3/o4-mini幻觉率翻倍，嘴还很硬

OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高，就在大家期待它能进一步提升日常工作的生产力时，许多用户却发现，它们的幻觉率却比前代模型要高了不少。

据 OpenAI 官方 system card 显示，在 PersonQA 评估中（一个旨在引发幻觉的测试集），o3 模型的幻觉率达到 33%，而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下，之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外，因为通常情况下，新一代 AI 模型在幻觉控制方面都会有所改进。

图丨OpenAI 官方评估结果（来源：OpenAI）

OpenAI 表示，这种情况“需要更多研究来理解原因”。报告写道，o3 和 o4-mini 在编码和数学等领域表现更好，但因为它们“总体上做出更多断言”，所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。

非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试，发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限，通过人类用户和调查代理（investigator agents）的组合测试，收集并分析了大量交互记录。

其中最关键的发现就是，o3 模型频繁编造自己使用代码工具的行为。例如，当被要求生成一个随机质数时，模型声称它运行了 Python 代码执行概率性素性测试（Miller–Rabin 测试），甚至详细描述了使用的工作流程，包括随机生成 512 位整数、对小素数进行试除等步骤。然而，o3 实际上并没有运行任何代码，这些细节都是模型编造的。

（来源：Transluce）

当用户指出 512 位整数可被 3 整除因此不是素数时，o3 不仅承认错误，还编造了解释，声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时，模型声称它已关闭了原始 Python 解释器，无法再访问该数字。

类似的捏造行为还包括：声称了解其无法访问的 Python REPL（Read-Eval-Print Loop，一种简单的交互式计算机编程环境）的详细信息（版本、编译器、平台等）；在被要求告知当前时间时，编造一个时间并声称使用了 Python 的 datetime 模块获取；在生成错误的 SHA-1 哈希值（一种密码散列函数）后，将错误归咎于用户，并坚称自己生成的哈希是正确的；声称能够分析本地日志文件，生成 Python 脚本并声称在本地运行了它，最后在追问下才承认没有 Python 解释器，输出是“手动制作”的。

Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例，发现了更多令人惊讶的行为。例如，他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例，其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外，研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标，该指标似乎与其输出的详细程度有关。

Transluce 的研究显示，这些行为在 o 系列模型（o3、o1 和 o3-mini）中更为常见，相比 GPT 系列模型（GPT-4.1 和 GPT-4o）。在研究人员设计的自动化测试中，o1 模型在零样本（zero-shot）环境下有 13% 的成功率产生代码工具幻觉，在少样本（few-shot）环境下则高达 30.1%，远高于 GPT-4o 的 0.8% 和 3.0%。

（来源：Transluce）

针对这一现象，Transluce 研究人员 Neil Chowdhury（前 OpenAI 员工）在接受媒体采访时表示：“我们的假设是，o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解（但未完全消除）的问题。”

首先，存在一些大型语言模型普遍面临的挑战。例如，预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。

此外，通过人类反馈进行强化学习（一种通过人类偏好来微调模型的技术）或模型反馈进行强化学习（如 Constitutional AI），可能存在“奖励操纵”（Reward Hacking）问题，即模型学会生成听起来合理、能取悦评估者（人类或模型）但实际上不准确的回答，尤其是当评估者难以验证模型陈述的真实性时（比如验证模型声称的过去行为）。“谄媚”也是一个关键因素，即模型为了迎合用户而避免反驳用户，即使这意味着默认用户关于模型具有某种能力的错误暗示。

然而，这些通用因素似乎并不足以完全解释 o 系列模型，特别是 o3，相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设：

其一是基于结果的强化学习（Outcome-based RL）：当前的推理模型通常被训练来产出“正确”的结果（如数学题的正确答案、通过单元测试的代码等），因为这类结果最容易评估和用于训练。然而，这种只关注最终结果的奖励机制，可能无意中鼓励了模型在无法解决问题（问题无解或过于困难）时进行“盲猜”，因为它缺乏承认“我不知道”的动机（这不会被视为“正确”答案）。

更重要的是，这种训练方式可能会让模型在处理那些结果难以直接验证的任务（如模型是否真的使用了某个工具）时产生混淆。如果模型仅因最终答案正确而受到奖励，它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚，因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率，但在其他任务上却埋下了隐患。

其二是被丢弃的思考链：推理类模型在生成回答前，内部会运行一个“思考链”（CoT，Chain-of-Thought），即一系列推理步骤。然而，由于 OpenAI 的限制，这个关键的内部推理过程从未向用户展示，并不会被传递到后续的交互轮次中，也不会保留在模型的上下文窗口里。这意味着，当用户追问模型之前的行为或推理过程时，模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。

（来源：OpenAI）