当地时间 1 月 31 日,OpenAI 终于发布了 o3-mini。

就在中国模型 DeepSeek 对 ChatGPT 领导地位发起挑战的一周后,OpenAI 终于做出回应,正式发布了其最新的推理模型 o3-mini。


图 | OpenAI CEO 奥特曼宣布 o3-mini 发布(来源:X)

更值得关注的是,这是该公司首次向免费用户开放最新的推理模型。这也是 AI 领域激烈竞争的真实写照:中国公司在 1 月 20 日发布的 DeepSeek R1 模型,以其惊人的性能和极低的成本引发了美国 AI 行业震动。

如果说 OpenAI 可能早就定好了模型发布日期,DeepSeek 半路杀出是出乎意料的,那么其定价或许在一定程度上受到了后者的影响:o3-mini 的定价是 1.10 美元/百万输入 token,4.40 美元/每百万输出 token。

这个价格比 OpenAI o1-mini 便宜了 63%,比完全体 o1 便宜 93%,可谓是“骨折价”。当然,定价还是比 DeepSeek 贵了很多(0.14 美元/百万输入 token,0.55 美元/百万输出 token)。


图 | o3-mini 定价(来源:OpenAI)

OpenAI 表示,作为小型模型系列中的最新成员,o3-mini 在科学、数学和编程等 STEM 领域表现出色。与其前辈 o1-mini 相比,它不仅保持了低成本运行的优势,而且在响应速度上也实现了显著提升。

o3-mini 的训练过程融合了公开数据和 OpenAI 内部开发的专有数据集。

为了满足不同场景的需求,o3-mini 创新地提供了低、中、高三种不同级别的“推理强度选项”,让用户可以根据具体任务灵活调整速度和准确度之间的平衡。

即便是在最低推理级别下,o3-mini 在数学和编程基准测试中的表现也能与 o1-mini 相媲美。而当设置为最高推理级别时,其表现甚至能够超越功能更全面的 o1 模型。


图 | LiveBench 编码(来源:OpenAI)

从具体数据来看,o3-mini 的表现确实令人印象深刻。测试人员反馈显示,与 o1-mini 相比,o3-mini 将重大错误率降低了 39%,其回答的受欢迎程度提高了 56%。


图 | 人类偏好评估(来源:OpenAI)

“外部专家测试人员的评估还表明,OpenAI o3-mini 的答案更准确、更清晰,推理能力比 OpenAI o1-mini 更强,尤其是在 STEM 方面。”OpenAI 写道。

即便在中等推理级别下,o3-mini 的平均响应时间也从 o1-mini 的 10.16 秒缩短到了 7.7 秒,提速达 24%。


(来源:OpenAI)

在具体评估中,o3-mini 在多个领域都展现出了不错的表现。

在 2024 年 AIME 竞赛数学题目中,高强度推理模式下的准确率达到了 83.6%。在博士级别的科学问题测试中,其准确率也达到了 77%。

在软件工程方面,o3-mini 成为了目前表现最好的模型。此外,在代码竞赛平台 Codeforces 上,o3-mini 也取得了超过 2000 的等级分,展现出了强大的编程能力。


图 | 竞赛编程(来源:OpenAI)


图 | 软件工程 SWE-bench 验证(来源:OpenAI)

在功能方面,o3-mini 首次引入了搜索功能的早期原型,能够找到最新的答案并提供相关网络来源的链接。此外,它还支持开发者们期待已久的功能,包括函数调用、结构化输出和开发者消息等,使其从一开始就具备了生产环境所需的各项能力。

可惜的是,o3-mini 不支持视觉功能,因此只能继续使用 o1 进行视觉推理任务。

对于付费用户来说,o3-mini 将在 ChatGPT 和 API 中直接替代 o1-mini,3-5 级开发者可以直接使用。Plus 和 Team 版用户的每日消息限制也从原来的 50 条提升到了 150 条。

最贵的 ChatGPT Pro 用户可以无限制地使用 o3-mini。而对于免费用户而言,只需在 ChatGPT 界面的消息编辑器中选择“推理”选项,就能免费(首次)体验这款强大的模型。

在安全性方面,OpenAI 表示自己仍然维持着极为谨慎的态度。在部署之前,他们对 o3-mini 进行了全面的安全风险评估,包括对化学和生物武器等敏感话题的测试,以及说服力能力的评估。结果显示,该模型在相同主题的说服力方面与人类写作水平相当。

OpenAI 介绍称,“我们用来训练 OpenAI o3-mini 安全响应的关键技术之一是审慎对齐(deliberative alignment),即在回答用户提示之前,我们会让模型推理人类编写的安全规范。与 OpenAI o1 类似,我们发现 o3-mini 在安全性和越狱评估方面的表现明显超越了 GPT-4o。”

然而,o3-mini 也存在一些局限性。在测试其自我改进能力的评估中表现欠佳,在“模拟 OpenAI 研究工程师编程工作”的测试中更是只得到了 0 分的成绩。


(来源:OpenAI)

OpenAI 写道:“衡量模型是否以及何时能够自动完成 OpenAI 研究工程师的工作是模型自主性评估工作的一个关键目标。我们测试模型复制 OpenAI 员工的拉取请求贡献的能力,以衡量我们在这方面的进展。”

研究人员推断称,“我们怀疑 o3-mini(在该任务中)性能低下是由于指令执行不力,以及对以正确格式指定工具的困惑。尽管不断、多次提示和反馈表明这种格式不正确,但该模型经常尝试使用‘幻想中的’ Bash 工具而不是 Python。这导致了长时间的对话,可能损害了其性能。”

这表明,尽管大模型在多个领域取得了突破,但距离实现 AI 自我进化的目标仍有很长的路要走。

o3-mini 的发布,标志着 OpenAI 在推动高性价比 AI 发展方面又迈出了重要一步,不过其定价策略显然是受到了 DeepSeek 的冲击,不然也不会比上一代 o1-mini 便宜那么多。

这次发布一方面是 OpenAI 履行此前的诺言并展现技术创新方面的实力,也反映出 AI 领域竞争的白热化。在来自中国等地的 AI 公司带来的竞争压力下,OpenAI 不得不选择通过开放更多高质量的免费服务来巩固自己的市场地位。

目前,微软、英伟达、AWS 等均已上线 DeepSeek 模型托管服务。另据《华尔街日报》报道,OpenAI 正在寻求新一轮的 400 亿美元融资。可见,尽管 OpenAI 一边否定 DeepSeek,但却已经开始着急。

作为用户,我们当然也希望各个公司“越来越卷”,将价格进一步降低,同时涌现出越来越多的开源模型。推动整个 AI 行业向着更开放、更普惠的方向发展。

参考资料:

https://openai.com/index/openai-o3-mini/

https://cdn.openai.com/o3-mini-system-card.pdf

https://openai.com/api/pricing/

ad1 webp
ad2 webp
ad1 webp
ad2 webp