Claude发布全球首款混合推理模型，这会是AI的新标准？

北京时间 2 月 25 日，Anthropic 最新发布的 Claude 3.7 Sonnet 和 Claude Code，让 AI 技术圈再次炸开了锅。

对于开发者来说，基于 Claude 3.7 Sonnet 模型打造 Claude Code 是一份意外惊喜。作为一个面向代码编辑、测试和命令行交互的 AI 工具，Claude Code 的亮相迅速引发了开发者的热议，很多开发者在进行了开发尝试后，都在 X（原 Twitter）上直呼「哇塞」。

有人用一句话就创建出了「立等可玩」的仿《我的世界》游戏：

图/ X

有人用一句话写好了一个动效自然的天气卡片：

图/ X

还有人用一句话直接生成了一个带光影变化的 3D 城市：

图/ X

但如果把视角拉远，从 AI 发展的产品策略来看，更值得关注的可能还是：Claude 3.7 Sonnet 是全球第一个混合推理模型。

简单来说，Claude 3.7 Sonnet 拥有标准模型和扩展模型（高级推理）两种模式，前者是 Claude 3.5 Sonnet、（OpenAI）GPT-4o、DeepSeek V3 这类「传统模型」，后者则是 DeepSeek R1、OpenAI o1 这类「推理模型」。

但不同于 OpenAI、DeepSeek 将两种模型独立运行，Claude 3.7 Sonnet 选择了「融合」：既可以像传统模型那样迅速给出回答，又能在复杂问题上调用更深层次的推理能力进行思考，并给出更好的回答。

图/ Claude

在此之前，AI 需要在「快」和「准」之间做选择。要么是 GPT-4o 这样的传统模型，获得快速但不一定严谨的回答；要么转向 DeepSeek R1 或 OpenAI o1 这样的推理模型，等待更久，但换来更高的计算精度和更合理的回答。

现在，Claude 3.7 Sonnet 试图打破这个割裂，让 AI 在效率和智能之间找到平衡，而 Anthropic 迈出的这一步，也在试图定义 AI 未来的产品形态。

Claude 3.7 Sonnet 升级，不只是编程能力提升

和所有 AI 版本升级一样，Claude 3.7 Sonnet 的强大，首先可以从各类 Benchmark 跑分中直观地体现出来。

在 MMLU（大规模多任务语言理解）、GSM8K（数学推理）和 HumanEval（代码生成）等测试中，Claude 3.7 Sonnet 的表现全面超越 3.5 版本，甚至在部分任务上已经能与 Claude 3 Opus（教师模型）相媲美。

Anthropic 甚至还让 Claude 3.7 Sonnet 跑了《宝可梦》游戏测试，也展现出了超越前代模型的决策与规划能力。

图/ Claude

不过更明显的升级，还是体现在代码理解这类高度依赖推理能力的任务上，Claude 3.7 Sonnet 取得了跨代式的跃迁，本来就公认领先的软件开发能力，又有了大幅提升。

图/ Claude

但跑分只是冰冷的数字，真正让人印象深刻的，是它在实际应用中的表现。对于开发者来说，最直观的感受来自编程能力的提升，Claude 3.7 Sonnet 能给出比前代更高效的代码逻辑，甚至可以检测潜在的安全漏洞，提出合理的修复方案。

当然，Claude 3.7 Sonnet 在数学推理上的升级也不可不提。之前 Claude 3.5 Sonnet 在 GSM8K 这类测试中表现并不算顶尖，偶尔还会翻车，给出错误答案。

但 3.7 版本的升级，显然补齐了这块短板——有人测试发现，它在涉及多步推理的题目上正确率明显提高，甚至可以在解答数学题时，自己检查并修正推导过程，就像一个经验丰富的考生，答完题后还会主动回头检查答案。

而这一切提升，最终导向了 Claude 3.7 Sonnet 最核心的变革——混合推理模式。

正如前文所提，Claude 3.7 Sonnet 在原本标准模型的基础上融入了新的扩展模型，实现了「一个模型，两种思考方式」，既能快速反应，又能深入思考。

图/ Claude

作为 Claude 3.5 Sonnet 的升级版，Claude 3.7 Sonnet 除了编程和工具调用能力，在标准模式下的整体性能升级其实不大。而在扩展模式下，Claude 在回答前会进行自我反思（思考链），从而提高了在数学、物理、指令遵循、编码和其他许多任务上的表现。

更重要的是，你可以选择何时让模型正常回答，何时让它思考更长的时间后再回答。同时针对 API 调用，Claude 3.7 Sonnet 还支持自定义「思考链」的长短限制，允许开发者根据实际场景在回答质量（以及成本）与速度之间进行权衡。

推理模型的痛点，Claude 一招就破解了？

OpenAI o1、DeepSeek R1 这类推理模型流行后，相信大家都发现了，虽然推理模型确实在数学、代码、逻辑推理等任务上远胜传统模型，但它们普遍存在一个致命短板：思考过程长、响应延迟明显。

输入一个问题，往往要等待十几秒甚至更长时间，才能得到答案。

如果说面对复杂问题，推理模型往往能够给出准确度更高的答案，值得等待；但如果只是日常聊天或信息检索，这种等待显然过于昂贵，更遑论推理模型的「幻觉」并没有减少，甚至可能更高。

这也导致，用户如果想在「速度」和「深度」之间做选择，就必须在两个不同模型之间切换。比如，日常交流时用 GPT-4o 或者 DeepSeek V3，但如果遇到复杂的数学推理或者代码逻辑问题，改用 OpenAI o1 或 DeepSeek R1 这类推理模型。

图/ X

但这种选择真的「绕不开」吗？在当前的技术架构下，AI 的推理能力和响应速度，几乎是一个此消彼长的关系。推理模型的核心优势是更强的逻辑能力，但代价是计算量更大，生成速度更慢，甚至需要额外的服务器资源支持。

而这，正是 Claude 3.7 Sonnet 没有简单复制 o1 或 R1，而是选择了「混合推理」模式的关键原因。

采用混合推理模式，AI 可以在标准模式和扩展模式之间自由切换。打个比方，这就像是一个经验丰富的咨询师，面对简单问题可以立刻给出答案，而面对复杂问题时，会停下来认真思考，而不是让客户自己去决定该用哪种方式。

这也直接带来了两个好处：普通用户不用烦扰选择，开发者也可以灵活调整 AI 的思考方式。

一方面，在普通对话、搜索信息、文案写作等日常任务中，Claude 3.7 Sonnet 依旧保持流畅的响应速度，和 GPT-4o 这样的模型表现类似。但当提出数学计算、编程、逻辑推理等高复杂度任务时，根据需要进行适度的「深度思考」，实现效果、体验与成本的平衡。

另一方面，在对实时性要求较高的场景或者应用（比如 AI 语音助手、客服系统）中，开发者可以尽可能缩短 AI 的思考链，甚至仅使用标准模型，保证最快地响应。可以在对精度要求较高的任务（比如代码审计、法律分析、金融预测）中，适当调整模型推理的深度，让 AI 更仔细地思考每个步骤。

混合推理会成为AI主流趋势？

图/ Claude

当然，混合推理模式并非完美无缺，比如 AI 如何判断某个任务是否需要进入「深度推理」？这个判断一旦出错，要么导致延迟过长（不必要地进入深度模式），要么导致答案不够精准（应该深度推理但没有执行）。

但从产品策略来看，它极有可能成为 AI 未来的主流趋势。因为它抓住了一个核心问题：用户并不想纠结于模型的选择，只关心 AI 对话的结果和体验。

换句话说，如果 Anthropic 能进一步优化动态判断的精准度，并通过 API 让开发者可以更灵活地调整推理策略，「混合推理模式」可能会成为大模型发展的下一个标准配置。

届时，OpenAI 和 DeepSeek 等大模型厂商也可能会一起跟进，将自己的推理模型与传统模型进行整合，共同促成一次 AI 产品范式的转变。

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦