刚刚,Claude 3.7 Sonnet 正式发布(虽然不知道为什么这样命名,跳过了 Claude 3.6,也不是传闻中的 Claude 4)。与此同时,《华尔街日报》报道,Anthropic 即将完成新一轮 35 亿美元的融资,总估值将达到 615 亿美元。


(来源:Anthropic)

据 Anthropic 介绍,Claude 3.7 Sonnet 是市场上首个“混合推理模型”(Hybrid reasoning model),兼备传统大模型和推理模型的特性,既能实时生成答案,又能深度推理,是其有史以来“最智能”的 AI 模型。

目前 Claude 3.7 Sonnet 已经向所有用户开放,但只有付费用户才能使用推理版本。

“我们开发 Claude 3.7 Sonnet 的理念与其他推理模型不同。我们并没有制作单独的模型,而是将推理作为众多功能之一集成到一个前沿模型中。”Anthropic 开发者关系负责人亚历克斯·阿尔伯特(Alex Albert)解释说。


(来源:Anthropic)

他补充称:“这意味着 Claude 3.7 Sonnet 既是普通的大语言模型,又是推理模型。用户可以选择何时需要实时生成答案,何时需要扩展思维模式。在扩展思维模式下,它会在回答之前进行深度思考。”

这种方法的核心精神是:让 AI 模型像人类一样,能够根据问题复杂度自动调整思考深度。

具体来说,用户可以选择是否激活模型的“推理”能力,当激活后,Claude 3.7 Sonnet 会展示其内部规划阶段,通过一个“可见的草稿本”向用户展示完整的思考过程。

正如 Anthropic 的产品和研究负责人戴安·佩恩(Dianne Penn)所说:“就像人类不会为立即回答的问题和需要思考的问题分别使用两个大脑一样,我们认为推理应该是前沿模型应具备的能力之一,与其他能力无缝集成,而非作为单独的模型提供。”

但佩恩也表示,用户将看到 Claude 对大多数提示的完整思考过程(即思维链),但出于信任和安全目的,某些部分可能会被编辑。


图 | Claude 的思考过程(来源:Anthropic)

这种统一模型的设计旨在简化用户体验。目前大多数 AI 聊天机器人都提供多个模型,在成本和功能上各不相同,用户需要根据任务类型来选择不同的模型。

而 Anthropic 希望用户不必考虑这些——理想情况下,一个模型就能完成所有工作。

那么 Claude 3.7 Sonnet 的性能如何呢?

Anthropic 表示,Claude 3.7 Sonnet 在标准模式下已经超越了上一代 Claude 3.5 Sonnet。

而在扩展思考模式下,它在数学、物理、指令遵循、编码等任务上表现出显著改进。

在真实世界的编码任务测试 SWE-Bench 上,Claude 3.7 Sonnet 的准确率高达 62.3%,而 OpenAI 的 o3-mini 模型得分为 49.3%,DeepSeek R1 为 49.2%。


图 | SWE-Bench 测试成绩(来源:Anthropic)

在考察 AI 模型与模拟用户和外部 API 在零售环境中交互能力的 TAU-Bench 测试中,Claude 3.7 Sonnet 得分 81.2%,而 OpenAI 的 o1 模型得分为 73.5%。


图 | TAU-Bench 测试成绩(来源:Anthropic)

此外,Claude 3.7 Sonnet 比之前的模型拒绝回答问题的频率更低,Anthropic 声称该模型能够更加细微地区分有害和无害的提示。与 Claude 3.5 Sonnet 相比,不必要的拒绝减少了 45%。


图 | 更详细的主流模型基准测试成绩对比(来源:Anthropic)

不过,在 GPQA Diamond 研究生知识和 AMIE 2024 数学竞赛两项测试中,开了推理模式的 Claude 3.7 Sonnet 仍然比不过 o1 和 Grok 3。

但 Anthropic 也强调,这两项的分数计算方式跟 o1 和 Grok 3 有所不同。更重要的是,它在开发推理模型时,“对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际如何使用大模型的现实任务”。


(来源:Anthropic)

由此可见,Claude 3.7 Sonnet 仍然延续了该系列模型在编程方面的强势。目前行业内的 AI 编程工具,如 Cursor 和 Cognition,其用户普遍反馈都是 Claude API 的实际使用体验要好于其他模型。

目前,Claude 3.7 Sonnet 已经上线,免费用户只能用不具备推理功能的 Claude 3.7 Sonnet 版本。


(来源:Anthropic)

对于开发者来说,新 API 支持精细控制模型思考的时间,要求 Claude 最多思考 N 个 token,最多可达 128K 个 token。

在价格方面,Claude 3.7 Sonnet 的定价与 3.5 Sonnet 相同,每百万输入 token 3 美元,每百万输出 token 15 美元。比 OpenAI 的 o3-mini 和 DeepSeek R1 贵了 3-6 倍左右。

除了 Claude 3.7 Sonnet,Anthropic 还公布了一个代理编程工具 Claude Code。


图 | Claude Code 界面(来源:Anthropic)

作为有限研究预览版,该工具允许开发者直接从终端通过 Claude 运行特定任务。

Anthropic 将其定位为一个“积极的协作者”,可以协助用户搜索和阅读代码、编辑文件、编写和运行测试、提交并推送代码到 GitHub,以及使用命令行工具。

在演示中,Anthropic 展示了 Claude Code 如何通过简单的命令(如“解释这个项目结构”)分析编码项目。在命令行中使用简单的英语,开发者就可以直接让其修改代码库。

Claude Code 会在更改代码时描述其编辑内容,甚至测试项目是否有错误或将其推送到 GitHub 存储库。


图 | Claude Code 演示视频(来源:Anthropic)

Anthropic 表示,尽管 Claude Code 是一个早期产品,但它已经成为其内部团队不可或缺的工具,特别是在测试驱动开发、调试复杂问题和大规模重构方面。

在早期测试中,Claude Code 一次性完成了通常需要 45 分钟的任务,大幅减少了开发时间和开销。

总的来说,Claude 3.7 Sonnet 和 Claude Code 的组合拳展示了 Anthropic 在 AI 领域的创新能力。

前者在性能和模型构建思路上实现突破,让用户能够根据手头的任务微调 AI 模型性能,后者则巧妙地利用了自家模型优秀的编程能力,以智能体的方式推动人与 AI 的交互变革。


图 | Anthropic 对 Claude 的展望(来源:Anthropic)

然而,Anthropic 也面临着激烈的竞争。OpenAI 的 CEO 山姆·奥特曼(Sam Altman)曾暗示,OpenAI 可能很快就会推出新的混合 AI 模型。

相比 DeepSeek R1 和 OpenAI o3,Anthropic 的高定价也降低了其模型的吸引力,尤其是考虑到推理模型的思考过程会使用大量的 token,很多人并不会为了追求百分之几的性能提升而花费数倍的价格。

因此,Anthropic 能否凭借第一个“混合推理模型”赢得用户青睐,还需要时间来检验。

参考资料:

https://www.anthropic.com/news/claude-3-7-sonnet

https://techcrunch.com/2025/02/24/anthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want/

https://x.com/alexalbert__/status/1894093679759167642

https://www.anthropic.com/research/visible-extended-thinking

ad1 webp
ad2 webp
ad1 webp
ad2 webp