奥特曼被逼急：上线 o3-mini，甚至免费，网友：还是选DeepSeek

机器之心报道

机器之心编辑部

奥特曼能不急吗？

被 DeepSeek 狂轰乱炸了一周后，终于在今天发布了新的模型 o3-mini。

此次发布，o3-mini 包含 low、medium 和 high 三个版本。

OpenAI 表示，今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型，已上线 ChatGPT 和 API 。

我们打开 ChatGPT，o3-mini 和 o3-mini-high 两个新模型已然上线。

不过 o3-mini 目前还不支持视觉功能，因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。

在使用权限上，ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini，企业版访问权限将在一周内开放。

作为此次升级的一部分，OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外，o3-mini 现在可以使用搜索功能，提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。

从今天开始，免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型，但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中，o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high，从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。

对于此次发布，网友反馈如何？

知名播客主理人 Lex Fridman 表示，OpenAI o3-mini 虽然是一个很好的模型，但 DeepSeek r1 的性能相似，而且更便宜，并揭示推理过程。

他甚至给出了「DeepSeek moment」这样一个词形容 DeepSeek 带来的深远影响。

接下来，就让我们看下 o3-mini 的性能指标：

快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似，OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当，同时响应速度更快。专家测试人员的评估显示，o3-mini 产生的答案比 o1-mini 更准确、更清晰，推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应，并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估（包括 AIME 和 GPQA）上与 o1 的表现相当。

竞赛数学（AIME 2024）：

竞赛数学：o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1，上图中灰色阴影区域为 64 个样本的多数投票（共识）。

博士级科学问题（GPQA Diamond）：

博士极科学问题：o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当，在博士级生物学、化学和物理问题上都显示出显著进步。

研究级数学（FrontierMath）：

研究级数学：o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时，o3-mini-high 能够在首次尝试时解决超过 32% 的问题，包括超过 28% 的具有挑战性的（T3）问题。

竞赛编程（Codeforces）：

在 Codeforces 编程中， o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数，均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。

软件工程（SWE-bench Verified）：

软件工程：o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率，使用内部工具可达到 61% 的准确率。

LiveBench 编码：

LiveBench 编码：即便是 o3-mini-medium 也超过了 o1-high，突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势，在关键指标上取得了显著更强的表现。

普通知识问题：

普通知识问题：o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。

人类偏好评估：

人类偏好评估：外部专家测试人员的评估显示， o3-mini 产生的答案比 o1-mini 更准确、更清晰，推理能力更强，特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应，并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。

模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时，提供了更快的性能和更高的效率。除了上述 STEM 评估外，o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中，o3-mini 的响应速度比 o1-mini 快 24%，平均响应时间为 7.7 秒，而 o1-mini 为 10.16 秒。

延迟：o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐（deliberative alignment），这种对齐方式训练模型在回答用户提示之前，先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似，研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前，OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果

越狱评估结果

未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力，同时保持低成本，OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来，每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展，OpenAI 仍然致力于在前沿领域引领，构建即使在大规模部署和使用的情况下，也能保持智能、效率与安全平衡的模型。