北京时间 2 月 25 日,Anthropic 最新发布的 Claude 3.7 Sonnet 和 Claude Code,让 AI 技术圈再次炸开了锅。
对于开发者来说,基于 Claude 3.7 Sonnet 模型打造 Claude Code 是一份意外惊喜。作为一个面向代码编辑、测试和命令行交互的 AI 工具,Claude Code 的亮相迅速引发了开发者的热议,很多开发者在进行了开发尝试后,都在 X(原 Twitter)上直呼「哇塞」。
有人用一句话就创建出了「立等可玩」的仿《我的世界》游戏:
图/ X
有人用一句话写好了一个动效自然的天气卡片:
图/ X
还有人用一句话直接生成了一个带光影变化的 3D 城市:
图/ X
但如果把视角拉远,从 AI 发展的产品策略来看,更值得关注的可能还是:Claude 3.7 Sonnet 是全球第一个混合推理模型。
简单来说,Claude 3.7 Sonnet 拥有标准模型和扩展模型(高级推理)两种模式,前者是 Claude 3.5 Sonnet、(OpenAI)GPT-4o、DeepSeek V3 这类「传统模型」,后者则是 DeepSeek R1、OpenAI o1 这类「推理模型」。
但不同于 OpenAI、DeepSeek 将两种模型独立运行,Claude 3.7 Sonnet 选择了「融合」:既可以像传统模型那样迅速给出回答,又能在复杂问题上调用更深层次的推理能力进行思考,并给出更好的回答。
图/ Claude
在此之前,AI 需要在「快」和「准」之间做选择。要么是 GPT-4o 这样的传统模型,获得快速但不一定严谨的回答;要么转向 DeepSeek R1 或 OpenAI o1 这样的推理模型,等待更久,但换来更高的计算精度和更合理的回答。
现在,Claude 3.7 Sonnet 试图打破这个割裂,让 AI 在效率和智能之间找到平衡,而 Anthropic 迈出的这一步,也在试图定义 AI 未来的产品形态。
Claude 3.7 Sonnet 升级,不只是编程能力提升
和所有 AI 版本升级一样,Claude 3.7 Sonnet 的强大,首先可以从各类 Benchmark 跑分中直观地体现出来。
在 MMLU(大规模多任务语言理解)、GSM8K(数学推理)和 HumanEval(代码生成)等测试中,Claude 3.7 Sonnet 的表现全面超越 3.5 版本,甚至在部分任务上已经能与 Claude 3 Opus(教师模型)相媲美。
Anthropic 甚至还让 Claude 3.7 Sonnet 跑了《宝可梦》游戏测试,也展现出了超越前代模型的决策与规划能力。
图/ Claude
不过更明显的升级,还是体现在代码理解这类高度依赖推理能力的任务上,Claude 3.7 Sonnet 取得了跨代式的跃迁,本来就公认领先的软件开发能力,又有了大幅提升。
图/ Claude
但跑分只是冰冷的数字,真正让人印象深刻的,是它在实际应用中的表现。对于开发者来说,最直观的感受来自编程能力的提升,Claude 3.7 Sonnet 能给出比前代更高效的代码逻辑,甚至可以检测潜在的安全漏洞,提出合理的修复方案。
当然,Claude 3.7 Sonnet 在数学推理上的升级也不可不提。之前 Claude 3.5 Sonnet 在 GSM8K 这类测试中表现并不算顶尖,偶尔还会翻车,给出错误答案。
但 3.7 版本的升级,显然补齐了这块短板——有人测试发现,它在涉及多步推理的题目上正确率明显提高,甚至可以在解答数学题时,自己检查并修正推导过程,就像一个经验丰富的考生,答完题后还会主动回头检查答案。
而这一切提升,最终导向了 Claude 3.7 Sonnet 最核心的变革——混合推理模式。
正如前文所提,Claude 3.7 Sonnet 在原本标准模型的基础上融入了新的扩展模型,实现了「一个模型,两种思考方式」,既能快速反应,又能深入思考。
图/ Claude
作为 Claude 3.5 Sonnet 的升级版,Claude 3.7 Sonnet 除了编程和工具调用能力,在标准模式下的整体性能升级其实不大。而在扩展模式下,Claude 在回答前会进行自我反思(思考链),从而提高了在数学、物理、指令遵循、编码和其他许多任务上的表现。
更重要的是,你可以选择何时让模型正常回答,何时让它思考更长的时间后再回答。同时针对 API 调用,Claude 3.7 Sonnet 还支持自定义「思考链」的长短限制,允许开发者根据实际场景在回答质量(以及成本)与速度之间进行权衡。
推理模型的痛点,Claude 一招就破解了?
OpenAI o1、DeepSeek R1 这类推理模型流行后,相信大家都发现了,虽然 推理模型确实在数学、代码、逻辑推理等任务上远胜传统模型,但它们普遍存在一个致命短板:思考过程长、响应延迟明显。
输入一个问题,往往要等待十几秒甚至更长时间,才能得到答案。
如果说面对复杂问题,推理模型往往能够给出准确度更高的答案,值得等待;但如果只是日常聊天或信息检索,这种等待显然过于昂贵,更遑论推理模型的「幻觉」并没有减少,甚至可能更高。
这也导致,用户如果想在「速度」和「深度」之间做选择,就必须在两个不同模型之间切换。比如,日常交流时用 GPT-4o 或者 DeepSeek V3,但如果遇到复杂的数学推理或者代码逻辑问题,改用 OpenAI o1 或 DeepSeek R1 这类推理模型。
图/ X
但这种选择真的「绕不开」吗?在当前的技术架构下,AI 的推理能力和响应速度,几乎是一个此消彼长的关系。推理模型的核心优势是更强的逻辑能力,但代价是计算量更大,生成速度更慢,甚至需要额外的服务器资源支持。
而这,正是 Claude 3.7 Sonnet 没有简单复制 o1 或 R1,而是选择了「混合推理」模式的关键原因。
采用混合推理模式,AI 可以在标准模式和扩展模式之间自由切换。打个比方,这就像是一个经验丰富的咨询师,面对简单问题可以立刻给出答案,而面对复杂问题时,会停下来认真思考,而不是让客户自己去决定该用哪种方式。
这也直接带来了两个好处:普通用户不用烦扰选择,开发者也可以灵活调整 AI 的思考方式。
一方面,在普通对话、搜索信息、文案写作等日常任务中,Claude 3.7 Sonnet 依旧保持流畅的响应速度,和 GPT-4o 这样的模型表现类似。但当提出数学计算、编程、逻辑推理等高复杂度任务时,根据需要进行适度的「深度思考」,实现效果、体验与成本的平衡。
另一方面,在对实时性要求较高的场景或者应用(比如 AI 语音助手、客服系统)中,开发者可以尽可能缩短 AI 的思考链,甚至仅使用标准模型,保证最快地响应。可以在对精度要求较高的任务(比如代码审计、法律分析、金融预测)中,适当调整模型推理的深度,让 AI 更仔细地思考每个步骤。
混合推理会成为AI主流趋势?
图/ Claude
当然,混合推理模式并非完美无缺,比如 AI 如何判断某个任务是否需要进入「深度推理」?这个判断一旦出错,要么导致延迟过长(不必要地进入深度模式),要么导致答案不够精准(应该深度推理但没有执行)。
但从产品策略来看,它极有可能成为 AI 未来的主流趋势。因为它抓住了一个核心问题:用户并不想纠结于模型的选择,只关心 AI 对话的结果和体验。
换句话说,如果 Anthropic 能进一步优化动态判断的精准度,并通过 API 让开发者可以更灵活地调整推理策略,「混合推理模式」可能会成为大模型发展的下一个标准配置。
届时,OpenAI 和 DeepSeek 等大模型厂商也可能会一起跟进,将自己的推理模型与传统模型进行整合,共同促成一次 AI 产品范式的转变。