3 月 24 日晚间,DeepSeek 悄然发布一款新的大语言模型——DeepSeek-V3-0324。

这款 641GB 大小的模型在 Hugging Face 上亮相,只有一个空的 README 文件和模型权重,依旧是几乎未作任何宣传。DeepSeek-V3-0324 基于 4 位模式,在配备 mlx-lm 的 512GB M3 Ultra 上运行速度超过每秒 20 个 tokens。

DeepSeek-V3-0324 采用混合专家(MoE,mixture-of-experts)架构。传统模型在执行每项任务时都会激活全部参数,但 DeepSeek 的方法在特定任务中仅激活其 6850 亿个参数中的大约 370 亿个参数。

这种选择性激活代表了模型效率的范式转变,通过仅仅激活每个特定任务最相关的“专家”参数,DeepSeek 实现了与规模大得多的全激活模型相当的性能,同时大幅降低了计算需求。

DeepSeek-V3-0324 还融合了两项额外的突破性技术:多头潜在注意力(MLA,Multi-Head Latent Attention)和多标记预测(MTP,Multi-Token Prediction)。多头潜在注意力增强了模型在长篇文本中保持上下文的能力,而多标记预测则改变了通常一次只能生成一个 token 的方法,改为每步生成多个 tokens。这些创新共同将输出速度提高了近 80%。此次发布的新模型使用了 MIT 开源许可,这允许其免费用于商业用途。

早期测试者公开表示,新版本相较于旧版本有了显著提升。一名昵称为 Xeophon 的 AI 研究员在 X 上发帖称:“我在自己的基准上测试了新的 DeepSeek V3,它在所有测试中的所有指标上都有巨大提升。它现已超越(Claude)Sonnet 3.5,是一个最佳的非推理模型。”


(来源:https://x.com/TheXeophon/status/)

如果这一说法能够通过更广泛的测试得到验证,那么 DeepSeek 的新模型将超越 Anthropic 的 Claude Sonnet 3.5。但是,与需要订阅的 Claude Sonnet 3.5 不同的是,DeepSeek-V3-0324 的权重免费供任何人下载和使用。

开发者工具创建者西蒙·威利森(Simon Willison)在一篇博客中指出,4 位量化版本可将存储空间占用降至 352GB,从而使其能够在配备 M3 Ultra 芯片的 Mac Studio 等高端消费级硬件上运行。虽然价值 9499 美元的 Mac Studio 可能超出了“消费级硬件”的定义,但能在本地运行如此庞大的模型,已经比较难得。

这代表着 AI 部署领域可能发生的重大转变。传统 AI 基础设施通常依赖于多个英伟达 GPU,这些处理器会消耗数千瓦的功率,而 Mac Studio 在推理过程中的功耗却不到 200 瓦。这一效率差距表明,AI 行业可能需要重新考虑对于顶级模型性能所需基础设施的假设。

目前,DeepSeek-V3-0324 完整的模型权重可以从 Hugging Face 获取,但 641GB 的大小使得直接下载仅适用于拥有大量存储和计算资源的人。对于大多数用户来说,基于云的选择提供了最容易访问的入口点。OpenRouter 提供对模型的免费 API 访问,并配有用户友好的聊天界面,只需选择 DeepSeek-V3-0324 作为模型即可开始实验。想要将该模型集成到应用程序中的开发者可以通过各种推理服务提供商来访问它。Hyperbolic Labs 宣布自己已经成为“Hugging Face 上首个为该模型提供服务的推理服务提供商”,而 OpenRouter 则能提供 API 访问。

DeepSeek 在 chat.deepseek.com 上的自有聊天界面可能也已更新至新版本,尽管该公司尚未明确确认此事。因此有早期用户报告称,通过该平台可以访问该模型,且其性能优于之前的版本。

早期用户公开表示,该模型的沟通风格发生了明显变化。虽然之前的 DeepSeek 模型因其对话式、类似人类的语气而受到称赞,但“V3-0324”展现出了更为正式、技术导向的形象。

这种个性转变很可能反映了 DeepSeek 工程师们深思熟虑的设计选择。向更精确、更具分析性的沟通风格的转变,表明该模型正进行战略性重新定位,以便适应专业应用和技术应用。

对于构建专门应用程序的开发人员而言,这种更为精确的沟通方式实际上可能是一种优势,因为它能为集成到专业工作流程中提供更清晰、更一致的输出。


(来源:资料图)

有分析指出,DeepSeek-V3-0324 的发布时机和特性强烈表明,它将成为 DeepSeek-R2 的基础模型,后者是一款预计将在未来两个月内推出的、以推理能力为重点的改进型模型。这遵循了 DeepSeek 的既定模式,即基础模型比专业推理模型早推出几周。

昵称为 mxforest 的 Reddit 用户指出:“这与他们在(2024 年)圣诞节前后发布 V3,几周后发布 R1 的情况相符。R2 传闻将于(2025 年)四月发布,所以可能就是这个时候了。”

如果 DeepSeek-R2 遵循 R1 设定的轨迹,它可能会对 OpenAI 的下一个旗舰模型 GPT-5 构成直接挑战,据传 GPT-5 将在未来几个月内发布。

外媒认为:“DeepSeek 的发布策略体现了中国公司和西方公司在 AI 商业理念上的根本分歧。尽管 OpenAI 和 Anthropic 等美国领军企业将模型置于付费门槛之后,但中国的 AI 公司却日益倾向于采用宽松的开源许可。”

开源方法还解决了中国 AI 公司面临的独特挑战。由于在获取尖端英伟达芯片方面受到限制,中国公司强调效率和优化,以在更有限的计算资源下实现具有竞争力的性能,这种由需求驱动的创新现已成为潜在的竞争优势。

参考资料:

https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

https://x.com/TheXeophon/status/1904225899957936314/photo/1

ad1 webp
ad2 webp
ad1 webp
ad2 webp