DeepSeek 又在假期到来的时候有新动作了。

刚刚,DeepSeek 在毫无预告的情况下,突然在 Hugging Face 平台上开源了最新数学定理证明专用模型 DeepSeek-Prover-V2-671B。


(来源:Hugging Face)

这个新模型并非通用的聊天机器人,而是专注于数学定理的形式化证明这一高度专业的领域。这类模型的目标是利用像 Lean 4 这样的证明助手软件,来理解和生成严格的数学证明步骤。简单来说,它们是帮助计算机验证数学定理正确性的 AI 工具,需要具备很强的逻辑推理能力。其主要应用场景包括:自动定理证明(从高中到大学水平的数学问题)、发现证明中的错误并提供修复建议、通过生成 Lean 4 代码和解释帮助教学,以及协助数学家探索新定理等。

实际上,DeepSeek 此前就已久发布过同类模型,2024 年 8 月时,他们曾发布了DeepSeek-Prover-V1.5,一个大约 7B 参数的模型。根据 DeepSeek 当时公布的信息,V1.5 在结合强化学习和蒙特卡洛树搜索等技术后,在一些标准的数学证明测试(如miniF2F 和 ProofNet)中取得了不错的成果,能够处理从高中到大学本科部分水平的数学问题。


图丨Prover-V1.5 的基准测试(来源:DeepSeek)

这次发布的 DeepSeek-Prover-V2-671B,在模型规模上有了巨大的飞跃,参数量达到了 671B ,比 V1.5 大了近百倍,比其他同类产品如 Llemma-7B/34B、InternLM2-StepProver 等也要大得多。

根据其公开的配置文件,我们可以了解到更多关于模型结构的信息。该模型建立在 DeepSeek-V3 架构之上,因此许多配置与通用的 DeepSeek-V3 模型相似。它采用了混合专家(MoE,Mixture-of-Experts)的设计,具体来说,每层包含 256 个路由专家(routed experts)和1个共享专家(shared expert),每个专家的中间层大小(moe_intermediate_size)为 2048,在处理每个输入符号(token)时会激活其中的 8 个专家。此外,该模型支持的最大上下文长度达到了 163,840 个 token。


图丨配置文件(来源:Hugging Face)

不过,截至发稿时,DeepSeek 官方尚未发布更多关于该模型的技术细节和性能数据。关于 DeepSeek-Prover-V2-671B 的训练方法、使用了哪些特定于数学证明的数据,以及它在基准测试上的实际表现如何等关键信息,目前仍一无所知。

对于这个新模型的内部构造和具体能力,还有待官方提供更多信息。考虑到参数量的巨大提升,我们可以期待 Prover-V2 能在各项数学证明基准上取得更好的成绩。

参考资料:

1.https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main

2.https://arxiv.org/abs/2408.08152

排版:刘雅坤

ad1 webp
ad2 webp
ad1 webp
ad2 webp