经济观察网 记者 沈怡然 截至2025年2月6日,DeepSeek(深度求索)的用户量突破2200万。凭借颠覆性和高性价比,DeepSeek成为继ChatGPT之后的又一个现象级AI产品,并引发AI产业链的追逐。

春节期间,云服务厂商、GPU厂商和智算中心的建设方纷纷部署DeepSeek并商讨相关方案。

2月5日以来,国内主要云厂商联通云、京东云、阿里云、腾讯云、百度智能云和移动云等纷纷上线DeepSeek大模型,并将其纳入各自的模型商店。国际云厂商微软云和亚马逊云科技早在春节前就上线了DeepSeek。

春节前,移动云团队发现,客户对DeepSeek最新版本R1和V3的反应非常强烈,便迅速展开研究与适配工作,对DeepSeek的满血版、蒸馏版、量化版等多个版本进行适配。移动云在全国拥有13个智算中心,将DeepSeek部署到每一处智算中心并不是个小工程。

云厂商上线DeepSeek的目的是更好地消耗并兜售自己的算力。DeepSeek的庞大用户基础,有望为他们带来业务增量。此外,DeepSeek是开源模型,云厂商之间不存在利益冲突。

移动云从2024年初起就关注到DeepSeek,并从V1版本开始上架这款模型。然而,从技术角度看,DeepSeek V1的多模态能力有限,无法很好地处理图像、音频等非文本信息,且在深度推理场景中也未显现出强大功能,因此当时用户的反应并不强烈。

直到DeepSeek团队在2024年12月26日发布了V3版本,仅使用2048块英伟达H800 GPU,训练成本低至558万美元。DeepSeek团队在2025年1月20日发布了R1版本,同样采用了极低成本,实现了与OpenAI o1系列相当的推理能力。

云厂商的上游GPU公司也行动起来。GPU是大模型算力的核心器件,目前国内多家GPU公司正在或已完成对DeepSeek的适配。

国产GPU公司摩尔线程的工程师在春节期间加班加点,于2月4日完成了DeepSeek蒸馏模型的部署。在该公司看来,这种蒸馏模型就是将大规模模型的能力迁移至更小、更高效的版本,它借鉴了教育领域中的“知识传递”概念,将一个大型且复杂的模型(教师模型)的知识“传授”给一个小型且简单的模型(学生模型)。这种方法不仅减少了模型的计算和存储需求,而且使模型更加易于部署。

摩尔线程提供包含GPU和集群在内的完整算力基础设施,适配DeepSeek能帮助其客户在资源受限的情况下部署大模型。

快思慢想研究院院长田丰认为,DeepSeek的出现降低了市场对英伟达芯片的需求预期。过去需要大量英伟达芯片才能实现的模型性能,现在可以通过国产GPU和DeepSeek以更低的成本实现。

1月27日以来,英伟达股价遭遇最大跌幅17%,市值蒸发约5400亿美元。

不过,各厂商对DeepSeek的适配尚未得到DeepSeek官方的确认。适配的好坏差异较大,这意味着GPU厂商需要在适配方面下功夫,以提升自身产品的性能和竞争力。

DeepSeek对产业链的激活还可能影响国内的智算中心。一位算力中心运营方人士对经济观察网记者称,许多智算中心都在研判DeepSeek,还可能会因此改变建设方案,增加国产设备的采购比例。

据中国信息通信研究院数据,截至2024年7月底,国内纳入监测的智算中心(含已建和在建)达87个。

前述算力中心运营方人士称,DeepSeek提供的高性价比模型有助于国产GPU与国产云服务相结合,形成一整套纯国产方案。过去,尽管各地政府鼓励智算中心增加国产设备的采购,但由于国产GPU产能和性能不足,未能很好地满足本土市场需求,导致许多算力中心的采购仍以英伟达品牌为主。


沈怡然经济观察报记者

大科创新闻部记者
关注硬科技领域,包括机器人及人工智能、无人机、虚拟现实(VR/AR)、智能穿戴,以及新材料领域。擅长企业深度报道及上市公司分析报道。发现前沿技术、发展趋势投资价值。

ad1 webp
ad2 webp
ad1 webp
ad2 webp