OpenAI最大最贵模型，来了！定价比DeepSeek贵1000倍

智东西（公众号：zhidxcom）
作者程茜
编辑心缘

智东西2月28日报道，今日凌晨，OpenAI GPT-4.5降世！

OpenAI将GPT-4.5称作其最大最好的聊天模型，其早期测试结果表明，GPT-4.5与人类的交互更加自然，知识库更广泛，具有高情商能了解用户的暗示等，使得其在写作、设计、编程等方面能力更加强大。

OpenAI CEO萨姆·阿尔特曼陪产之余还在社交平台上惊叹：“这是第一个感觉像是在和一个有思想的人说话的模型。”他还特别提到，GPT-4.5不是一个推理模型，也不会在基准测试中取得压倒性优势。它是一种不同类型的智能，其中有着他从未感受过的奇妙之处。

目前，GPT-4.5可以通过搜索访问最新的信息，支持文件和图像上传，并使用画布进行编写和代码。但是目前不支持ChatGPT中的语音模式，视频和屏幕共享等多模式功能。

从OpenAI公布的信息来看，和GPT-4o、o1、o3一样，GPT-4.5的训练知识截止日期都是2023年10月。

不过最令人震惊的是API价格，每百万Tokens价格75美元，相比GPT-4o的2.5美元上涨30倍，即便如此，OpenAI的文章提到，GPT-4.5无法完全替代GPT-4o。

相比DeepSeek的正常价格，GPT-4.5输入价格达到了惊人的280倍，DeepSeek前几天还发布API淡季折扣价，GPT-4.5输入价格（缓存命中）是其1000多倍。

从今天开始，ChatGPT Pro用户将能够在网页、桌面和电脑端中选择使用GPT-4.5，下周开始向Plus和Team用户推出，再下周向Enterprise和Edu用户推出。

GPT-4.5的系统卡已公开：

https://cdn.openai.com/gpt-4-5-system-card-2272025.pdf

一、高情商感知用户沮丧，人类测试员更爱GPT-4.5

GPT-4.5在响应之前不会思考，这使得它的优势与OpenAI o1等推理模型特别不同。与OpenAI o1和OpenAI o3-mini相比，GPT-4.5是一个更通用、更智能的模型。

OpenAI研究人员将GPT-4.5和o1的生成结果进行了对比：

当他询问“我的朋友又取消了我的约会！写一条短信告诉他们我讨厌他们”，GPT-4.5会给在给出短信的同时，领会到用户现在十分沮丧之一社交暗示，o1直接给出了一条充满愤怒的短信。

第二个问题是“从第一性原理解释AI对齐的必要性”，相比o1，GPT-4.5的回答会更加自然，引导用户进行思考。

此外，OpenAI也在官网晒出了不少GPT-4.5的Demo对比：

用户因为考试不及格而沮丧时，GPT-4.5会安慰并引导用户交流，GPT-4o则是给出了一堆冰冷的文字建议。

用户与GPT-4.5交流太空探索时，它的回答更具“人情味”。

用户还可以以聊天的口吻和GPT-4.5交流。

OpenAI的测试结果显示，在准确性、幻觉测试方面，GPT-4.5的性能表现优于GPT系列其他表现。

此外，模型解决复杂问题时，能更好理解人类和需求意图至关重要。OpenAI基于新的可扩展技术，可以使用来自较小模型的数据训练更大，更强大的模型。这些技术提高了GPT-4.5的可操控性，对细微差别的理解和自然对话。

其对比显示，人类偏好测试人员更喜欢GPT-4.5。

多语言性能方面，OpenAI使用专业翻译人员将MMLU的测试集翻译成14种语言，在该评估中，GPT-4.5优于GPT-4o。

GPT-4.5在标准学术基准上的结果，以说明它在传统上与推理相关的任务上的当前性能。即使是单纯的扩大无监督学习，GPT-4.5也显示出比以前的模型（如GPT-4o）有意义的改进。

OpenAI在官方博客也提到，GPT-4.5并不能完全替代GPT-4o，在不少基准测试中其效果落后。

评估AI模型解决现实世界软件问题的能力的基准测试SWE-Bench Verified中，GPT-4.5能力超过GPT-4o，但是低于o1、o3-mini、深度研究。

SWE-Lancer评估模型在现实世界中的性能，具有经济价值的全栈软件工程任务。GPT-4.5解决了20%的IC SWE任务和44%的SWE Manager任务，略高于o1。深度研究在此次评估中仍然得分最高，在SWE-Lancer上达到了最先进的性能，解决了大约46%的IC SWE任务和51%的SWE Manager任务。