OpenAI o3-mini发布，被DeepSeek逼入价格战，免费用户也能尝鲜

当地时间 1 月 31 日，OpenAI 终于发布了 o3-mini。

就在中国模型 DeepSeek 对 ChatGPT 领导地位发起挑战的一周后，OpenAI 终于做出回应，正式发布了其最新的推理模型 o3-mini。

图 | OpenAI CEO 奥特曼宣布 o3-mini 发布（来源：X）

更值得关注的是，这是该公司首次向免费用户开放最新的推理模型。这也是 AI 领域激烈竞争的真实写照：中国公司在 1 月 20 日发布的 DeepSeek R1 模型，以其惊人的性能和极低的成本引发了美国 AI 行业震动。

如果说 OpenAI 可能早就定好了模型发布日期，DeepSeek 半路杀出是出乎意料的，那么其定价或许在一定程度上受到了后者的影响：o3-mini 的定价是 1.10 美元/百万输入 token，4.40 美元/每百万输出 token。

这个价格比 OpenAI o1-mini 便宜了 63%，比完全体 o1 便宜 93%，可谓是“骨折价”。当然，定价还是比 DeepSeek 贵了很多（0.14 美元/百万输入 token，0.55 美元/百万输出 token）。

图 | o3-mini 定价（来源：OpenAI）

OpenAI 表示，作为小型模型系列中的最新成员，o3-mini 在科学、数学和编程等 STEM 领域表现出色。与其前辈 o1-mini 相比，它不仅保持了低成本运行的优势，而且在响应速度上也实现了显著提升。

o3-mini 的训练过程融合了公开数据和 OpenAI 内部开发的专有数据集。

为了满足不同场景的需求，o3-mini 创新地提供了低、中、高三种不同级别的“推理强度选项”，让用户可以根据具体任务灵活调整速度和准确度之间的平衡。

即便是在最低推理级别下，o3-mini 在数学和编程基准测试中的表现也能与 o1-mini 相媲美。而当设置为最高推理级别时，其表现甚至能够超越功能更全面的 o1 模型。

图 | LiveBench 编码（来源：OpenAI）

从具体数据来看，o3-mini 的表现确实令人印象深刻。测试人员反馈显示，与 o1-mini 相比，o3-mini 将重大错误率降低了 39％，其回答的受欢迎程度提高了 56％。

图 | 人类偏好评估（来源：OpenAI）

“外部专家测试人员的评估还表明，OpenAI o3-mini 的答案更准确、更清晰，推理能力比 OpenAI o1-mini 更强，尤其是在 STEM 方面。”OpenAI 写道。

即便在中等推理级别下，o3-mini 的平均响应时间也从 o1-mini 的 10.16 秒缩短到了 7.7 秒，提速达 24％。

（来源：OpenAI）

在具体评估中，o3-mini 在多个领域都展现出了不错的表现。

在 2024 年 AIME 竞赛数学题目中，高强度推理模式下的准确率达到了 83.6％。在博士级别的科学问题测试中，其准确率也达到了 77％。

在软件工程方面，o3-mini 成为了目前表现最好的模型。此外，在代码竞赛平台 Codeforces 上，o3-mini 也取得了超过 2000 的等级分，展现出了强大的编程能力。

图 | 竞赛编程（来源：OpenAI）

图 | 软件工程 SWE-bench 验证（来源：OpenAI）

在功能方面，o3-mini 首次引入了搜索功能的早期原型，能够找到最新的答案并提供相关网络来源的链接。此外，它还支持开发者们期待已久的功能，包括函数调用、结构化输出和开发者消息等，使其从一开始就具备了生产环境所需的各项能力。

可惜的是，o3-mini 不支持视觉功能，因此只能继续使用 o1 进行视觉推理任务。

对于付费用户来说，o3-mini 将在 ChatGPT 和 API 中直接替代 o1-mini，3-5 级开发者可以直接使用。Plus 和 Team 版用户的每日消息限制也从原来的 50 条提升到了 150 条。

最贵的 ChatGPT Pro 用户可以无限制地使用 o3-mini。而对于免费用户而言，只需在 ChatGPT 界面的消息编辑器中选择“推理”选项，就能免费（首次）体验这款强大的模型。

在安全性方面，OpenAI 表示自己仍然维持着极为谨慎的态度。在部署之前，他们对 o3-mini 进行了全面的安全风险评估，包括对化学和生物武器等敏感话题的测试，以及说服力能力的评估。结果显示，该模型在相同主题的说服力方面与人类写作水平相当。

OpenAI 介绍称，“我们用来训练 OpenAI o3-mini 安全响应的关键技术之一是审慎对齐（deliberative alignment），即在回答用户提示之前，我们会让模型推理人类编写的安全规范。与 OpenAI o1 类似，我们发现 o3-mini 在安全性和越狱评估方面的表现明显超越了 GPT-4o。”

然而，o3-mini 也存在一些局限性。在测试其自我改进能力的评估中表现欠佳，在“模拟 OpenAI 研究工程师编程工作”的测试中更是只得到了 0 分的成绩。

（来源：OpenAI）