科技圈从来不缺新闻,但 DeepSeek-R1 的出现,却像一颗石子投入平静的湖面,激起了层层涟漪。这家来自中国的 AI 初创公司,以其开源的推理大模型 R1,正在搅动全球 AI 格局。R1 不仅拥有媲美甚至超越 OpenAI o1 的性能,更以其低廉的成本和开放的姿态,赢得了全世界的关注。DeepSeek-R1 的出现,如同 AI 界的“鲶鱼”,它的开源策略和高效性能,正在迫使整个行业重新思考 AI 的未来。

那么,这条“鲶鱼”究竟带来了哪些改变?中国计算机学会青年计算机科学与技术论坛(CCF YOCSEF)近期组织了一场研讨会,邀请了复旦大学邱锡鹏教授、清华大学刘知远长聘副教授、清华大学翟季冬教授以及上海交通大学戴国浩副教授四位专家,从不同角度深入解析了 DeepSeek-R1 的技术突破与未来影响,或许能从中找到答案。



R1 的推理模型架构突破

要理解 R1 的突破,我们要从 o1 类推理模型开始说起。

邱锡鹏认为,当前人工智能领域正面临着一个重要转折点。此前,Ilya 称“预训练时代可能即将结束”。这一变化主要源于数据增长的停滞。在这样的背景下,OpenAI 开始转向强化学习和推理式计算的探索,试图通过增加推理长度来改进模型性能。这也为下一代大模型的发展注入了新的动力。

邱锡鹏解释说:“o1 模型的训练需要在强化学习的框架下进行,大语言模型充当了一个 Agent。每个动作其实就是生成下一个 token,最终生成整个 step 或者 solution。”在这个框架下,模型需要考虑动作的颗粒度定义,以及如何在给定当前状态 (State)的情况下,通过策略 (Policy) 生成下一阶段的动作(Action)。


(来源:arXiv)

从强化学习的视角来看,o1 这类大型推理模型可以分为四个核心要素。第一是策略初始化。这要求模型具备初始的、类人的推理行为能力,包括问题理解、任务分解,以及验证和修正错误的能力。


(来源:arXiv)

第二个要素是奖励函数设计。“reward 其实在传统方法里主要分成两大块,”邱锡鹏解释道,“一个是从环境中直接获得奖励信号,就像解题时的判断对错。另外,如果没有环境的回馈信号,我们可以通过专家或者偏好数据来训练一个奖励模型。”o1 模型在训练过程中混合了多种奖励函数的设计方法,并且尝试从结果监督转向过程监督,在中间过程进行打分。

第三个要素是搜索策略。在学术界,研究者们投入了大量精力来提高搜索效率。搜索方法主要分为两类:基于树的搜索和基于顺序修改的搜索。这两种策略对于复现 o1 模型都具有重要意义。

第四个要素是学习过程。这主要包括使用强化学习和其他方法来优化模型。具体可以分为两个阶段:在预热(Warmup)阶段使用行为克隆方法,然后在第二阶段通过强化学习来提升模型性能。

在许多 o1 的复现工作中,业界有很多复现是基于 SFT 或者蒸馏 o1 的路线。但实际上,o1 的核心还是应该从强化学习框架开始。

R1 发布了两个版本:R1-Zero 和 R1。其中,R1-Zero 完全依靠强化学习驱动,不经过预热阶段,没有任何初始的人工调节。正如邱锡鹏所说:“R1-Zero 是从基础模型开始,完全由强化学习驱动,不经过之前提到的 warmup 阶段。这个模型没有任何初始的人工调节,完全靠强化学习来进行优化。”

在训练过程中,随着步骤的增加,模型逐渐展现出长文本推理的能力,尤其是长链推理。推理路径变得越来越长,同时还表现出了自我修正的能力,能够发现并修复之前的错误。不过,在实际训练中也出现了一些问题,比如经常出现语言混合的问题。

R1 的训练分为四个关键阶段:冷启动阶段、推理导向的强化学习阶段、拒绝抽样与监督微调阶段,以及全任务强化学习阶段。在冷启动阶段,通过收集少量合成数据进行微调,确保训练初期的稳定性。第二阶段以 DeepSeek-V3 为基础,进行强化学习训练,并引入语言一致性的奖励机制。第三阶段引入其他领域的监督微调 (SFT,Supervised Fine-Tun-ing)数据,增强模型在写作、角色扮演等任务上的通用能力。最后阶段则通过规则奖励和偏好奖励进行全面优化。

值得注意的是,R1 并未采用传统的过程监督或蒙特卡洛树(MCTS,Monte Carlo Tree Search)搜索等技术。邱锡鹏指出:“R1 虽然没有显式强调 MCTS 搜索,但最终报告显示,通过 majority vote,能够大幅提高推理效果,这也说明搜索在推理过程中依然具有提升模型能力的作用。”

尤其令人意外的是,R1 在写作能力方面表现突出。邱锡鹏表示:“OpenAI o1 相比 4o,写作提升并不多,但 R1 在写作任务上有明显的提升。这可能意味着,强推理技术可以帮助模型在创作任务中发挥更大的潜力。”

不过,R1 仍然存在一些需要改进的地方。在通用任务上的推理效果还不够理想,强化学习的泛化能力仍需进一步研究。此外,测试时间扩展性与训练规模、数据规模密切相关,需要确保足够的训练步骤和数据来保证模型性能。

但总的来说,R1 的架构创新为人工智能领域带来了新的可能。它是目前唯一具备强推理能力并能与联网搜索配合的产品,这也意味着下一步的发展很可能是进一步提升强化学习和推理模型的能力。



为什么 R1 能够引起如此广泛的关注?

实际上,DeepSeek-R1 并非第一个推理模型,也并不是第一个 OpenAI o1 的复现模型,为何它却引起了如此广泛的关注?

刘知远认为,DeepSeek-R1 的重大影响源于其在两个方面的突破性贡献。“DeepSeek 是全球首个通过纯强化学习技术,成功复现了 o1 的能力,并且开源了相关的技术细节,发布了相对详细的技术报告。这是它的一个非常重要的贡献。”

具体来看,R1 的第一个突破在于其独特的技术路线。它基于 Deep Seek-V3 的基础模型,通过大规模强化学习技术增强推理能力。这一成就意义重大,因为在此之前,几乎没有任何团队能够成功地将强化学习应用到大规模语言模型的训练中。更值得注意的是,R1 并未局限于规则驱动的数学模型或算法,而是成功地将强化学习带来的强推理能力泛化到其他领域,使得用户在实际使用过程中能够感受到其在写作等任务中的卓越表现。


(来源:刘知远)

那么它具体是如何做到的呢?实际上,R1 的训练分为两个阶段。第一阶段仍然基于 V3 的基础模型,通过增强推理过程的可读性,生成相应的深度推理数据。第二阶段则结合传统的通用 SFT 数据对大模型进行微调,并进一步进行强化学习,最终得到一个具有强泛化能力的推理模型,也就是 R1。

第二个重要突破在于其开源策略的选择。最近,OpenAI CEO Sam Altman 承认,自己没有选择开源站在了“历史错误的一边”。刘知远指出,OpenAI 这一系列决策失误为 DeepSeek 创造了机会。“OpenAI 的决策失误起了很大作用。OpenAI 在发布 O1 后,首先没有开源;其次,它把 O1 的深度推理过程隐藏起来;最后,其收费非常高,导致全球很多人无法真正体验到深度推理带来的震撼。”

相比之下,DeepSeek 选择了开源的道路,这一决定具有深远的战略意义。就像 2023 年 Meta 发布 LLaMA 模型时那样,开源让全球的研究者能够快速建立起相关能力。刘知远将 DeepSeek-R1 的影响力比作 2023 年初 OpenAI 发布 ChatGPT 时的震撼。如果说 ChatGPT 让全球看到了大模型的重要性,那么 DeepSeek 的开源则让全球研究者有机会亲身参与到强大推理能力的开发中。

更重要的是,DeepSeek 的成功展示了“有限算力+算法创新”的发展模式。在有限的算力资源支持下,通过强大的算法创新突破了算力瓶颈的限制,证明即使在算力受限的情况下,也能做出具有全球影响力的成果。这一点对中国 AI 发展具有重要启示。

放眼未来,刘知远提出了人工智能发展的三大方向:探索科学化的技术方案,追求更高效的人工智能;实现计算系统的智能化,以更低成本推动大模型在各领域的应用;推动人工智能的广泛应用,实现真正的普惠。他特别指出,从 2023 年以来,大模型的能力密度每 100 天翻一倍,这意味着每过 100 天,只需一半的算力和参数就能实现相同的能力。这种密度定律的存在,将是实现人工智能高质量、可持续发展的关键。

“DeepSeek 给我们带来的一个重要启示。”刘知远总结道,“就是它能够让我们看到用小米加步枪也能取得非常广阔的胜利。我们即将迎来一个智能革命的时代,它的高潮即将到来,这是非常值得期待的。”



DeepSeek 的系统软件优化

除了纯强化学习等算法层面的创新,DeepSeek 能引起全球专注的另一个重要原因就是其低廉的训练成本。翟季冬就从系统软件层面深入分析了 DeepSeek 降低训练成本的方法。

根据 DeepSeek 公开的训练成本数据,如果按照 H800 每卡每小时 2 美元的租赁成本计算,整体训练成本约为 550 万美元(不包括前期的模型架构探索和实验开销)。这个远低于其他国际大公司的训练成本的数据在业界引发了广泛讨论。

从训练规模来看,使用 2048 张 H800 显卡需要 54 天完成训练,而如果使用 10000 张 H800 显卡,只需要 11 天。这种高效训练背后是 DeepSeek 在模型架构和系统优化上的创新。DeepSeek V3 拥有 671B 参数,远超 GPT-3 的 175B。它采用了 MoE(mixture of experts)架构,每个 token 会激活 37B 参数,约占总参数量的 5.5%。整个模型包含 61 层 Transformer,除前三层外都采用了 MoE 架构,每一层都包含一个共享专家和 256 个路由专家,每个头可能激活 8 个路由专家。


(来源:arXiv)

为了高效训练这样一个庞大的模型,DeepSeek 开发了并行训练框架 HAI-LLM。该框架采用了 16 路流水线并行、64 路专家并行 (跨越 8 个物理节点)、基于 ZeRO-1 的数据并行方案。考虑到通信开销,框架没有采用张量并行策略。在此基础上,DeepSeek 针对系统的四个关键方面进行了深度优化。

在负载均衡方面,MoE 架构最大的挑战在于如何保证各个专家的计算负载均衡。DeepSeek 创新性地提出了“auxiliary loss free”负载均衡策略,通过引入 Expert Bias 动态调节负载分配。当发现某个专家负载过重时,系统会降低其 bias 值;当专家负载不足时,则增加其 bias 值。这种动态调节确保了训练过程中的计算资源能够得到充分均衡的利用。

在通信优化方面,专家并行会带来大量的“alltoall”通信开销。为了解决专家并行带来的巨大通信开销,DeepSeek 设计了创新的 DualPipe 算法。“通过精细控制分配给计算和通信的 GPU SM 数量,保证计算和通信能够完全重叠。”翟季冬解释说。在跨节点通信方面,DeepSeek 采用了独特的设计:“跨节点时,每个 token 最多路由到 4 个物理节点;节点内时,每个 token 平均选择 3.2 个专家。这种设计充分考虑了 IP 带宽与 NVLink 带宽的比值关系。”


(来源:arXiv)

在内存管理上,DeepSeek 采用了一系列创新方法提升 GPU 显存利用效率。通过对 RMSNorm、MLA up-projection 等操作进行重计算,以及将模型参数的指数移动平均等数据存储到 CPU 内存中,大大降低了 GPU 显存压力。此外,DeepSeek 还实现了主模型和 MTP 模块的 output head 和 embedding 在相同节点上的参数共享。

在计算优化方面,DeepSeek 采用了混合精度训练策略,在核心计算层使用 FP8 精度格式。为了解决低精度可能带来的收敛问题,团队设计了细粒度的量化方案,将 Activation 按 1*128 Tile 分组,Weight 按 128*128 block 分组,并通过提高累积精度来保证训练的稳定性。


(来源:arXiv)

翟季冬强调,这些系统级优化的意义不仅在于降低了训练成本,更在于提升了模型的整体性能。特别是在 MoE 架构的负载均衡问题上,DeepSeek 的创新解决方案为整个行业提供了重要参考。这些优化策略的成功实施,证明了即使在有限的算力资源条件下,通过软件层面的创新也能实现卓越的性能表现。这种系统软件层面的深度优化,既展示了中国 AI 技术在工程实现上的创新能力,也为未来大模型的训练提供了一个高效且可持续的技术路径。



从软硬件协同看 DeepSeek 的未来方向

在各路研究者和媒体对 DeepSeek 模型的不断深挖下,有研究者发现,DeepSeek 在研发大模型时或许绕过了 CUDA。

戴国浩从软硬件协同的视角对这一点进行了分析。他首先说明了现状:“当前我们在开发人工智能应用时,通常会使用高层编程语言或硬件接口进行编程,而不需要关心底层硬件的具体样式或操作。”

当我们使用 GPU 时,通常会经过多个层级才能调用到底层硬件。从上到下依次是高层编程语言 (如 Python、C++)、硬件接口 (如 CUDA、OpenCL 等)、驱动程序,最后才是底层硬件。在这个过程中,CUDA 作为一个相对高层的接口,为用户提供编程接口,而 PTX 则隐藏在驱动背后。


(来源:Nvdia)

DeepSeek 的突破性创新在于它直接深入到 PTX 层面。正如戴国浩所说:“PTX 与底层硬件直接交互。如果我们能够编写和调用 PTX 代码,我们就能更精确地控制底层硬件,实现更高效的计算。”这一优化思路引发了广泛关注,“有些媒体将这项技术解读为‘突破性绕过 CUDA 的限制’,而国内一些媒体也将其称为‘绕开 CUDA 的垄断’。”


(来源:DeepSeek)

那么其具体意义究竟如何?“几乎所有的深度学习和大模型的算法工程师并不会直接接触底层接口。那么,为什么这一层的优化如此重要呢?原因在于 PTX 与底层硬件直接交互。如果我们能够编写和调用 PTX 代码,就能更精确地控制底层硬件,实现更高效的计算。”戴国浩说。

戴教授将 DeepSeek 的优化策略分为两大类。第一类是底层优化,即在已知算法模型和底层硬件的情况下,通过软件优化来提升硬件效率,比如通信优化或内存优化。这些优化不会改变程序执行的正确性,但能显著提升性能。第二类是协同优化,包括混合精度、量化和 MLA 等技术,这些优化不仅涉及原有算法模型的修改,还可能需要调整底层硬件,从而扩展硬件优化的空间。

为了说明底层优化的重要性,戴教授用冒泡排序算法作为例子。虽然 Python 实现起来更简单,但 C 语言这样的底层语言往往能实现更高的硬件利用效率、更低的功耗和更短的计算时间。这一点在 FlashTest 的研究中得到了充分验证,通过对不同内存层级的精细控制,FlashTest 实现了比传统方法快一个数量级的性能提升。

在协同优化方面,DeepSeek 展示了从应用到基础设施的全系统优化思路。比如,芯片公司 Groq 通过定制硬件架构,将传统 GPU 中的 HBM 或 GDR 内存替换为级联的 SRAM 内存,使得大模型推理速度提升了多个数量级。这种协同优化不仅仅局限于软件层面,而是打破了单一层级的限制,实现了超越 GPU 原始性能的突破。

从更宏观的角度来看,人工智能的发展离不开三驾马车:算力、算法和数据。从最初的神经元提出,到 80 年代的早期识别模型,再到当前基于 GPU 的大模型训练,每一次突破都依赖于这三者的协同发展。戴国浩指出,中国在这一过程中也需要走出自己的闭环。DeepSeek 的成功已经为我们证明,通过系统架构的优化,结合国产芯片和硬件,中国的 AI 技术完全可以逐步超越国际竞争者。

戴国浩最后总结了三点关键思考:“了解硬件细节,极致底层优化;打通软件硬件,联合协同优化;形成逻辑闭环,助力国产发展。”这三点思考勾画出了一个“模型-系统-芯片”和“软件-硬件”双闭环的发展路径,为中国 AI 产业的未来发展指明了方向。这种全方位的软硬件协同创新策略,不仅能够提升现有技术的性能,更为重要的是能够推动形成完整的国产 AI 技术生态体系。



面向未来:创新、开源与持续发展

在研讨会的最后环节,与会专家们就观众关心的问题进行了深入讨论。其中,关于 MoE 架构是否是当前最优解的问题引发了热烈讨论。

刘知远认为:“没有人永远是对的。2023 年初 OpenAI 发布 ChatGPT 他做对了,发布 GPT4 他做对了,但发布 o1 他就做错了选择了不开源。我也不会认为 DeepSeek 选择了 MoE 就会永远是正确的,这应该是一个开放性的问题。”

翟季冬也表示认同:“这一波人工智能对我影响最大的,就是技术在不停地变化。这是人工智能最有意思的地方,很有可能又有一些新的技术会颠覆现有技术。”

戴国浩则从历史角度进行了分析:“神经网络在上世纪 80 年代被提出时,到 90 年代很多机器学习会议已经拒绝接受神经网络的论文,认为效果不好、可解释性差。但技术的发展与时间有关,我们需要保持开放态度。MoE 在当前取得了不错的效果,但这只能说是一个很好的解,而不是最优解。”

对于长思维链模型对硬件的特殊需求,戴国浩指出了两个关键变化:一是对历史信息获取提出了更高要求,二是对整体推理时间和成本的需求变得更大。这促使业界思考是否需要改变传统的计算和存储分离模式,探索将计算和存储放得更近,甚至放到一起的可能性。

研讨会的讨论也触及了 DeepSeek 给中国大模型发展带来的启示。邱锡鹏强调了高水平研发团队的重要性,特别是年轻研究者敢于创新的精神。刘知远则特别赞赏 DeepSeek 团队的技术理想主义,以及他们在“有限算力+算法创新”模式下取得的成就。

翟季冬认为 DeepSeek 的成功将产生示范效应:“DeepSeek 团队这次的成果,一定会对中国在人工智能领域的工作者产生很大的激励作用。这让大家看到,中国团队完全有能力做出世界级的成果。”

从全球视角来看,DeepSeek-R1 的出现确实标志着 AI 领域格局的重要转变。一方面,在这场 AI 竞赛中,虽然美国目前仍占据领先地位,但形势正在发生微妙变化。如前谷歌 CEO Eric Schmidt 在近期采访中谈到的“即使美国赢得了这场竞赛的第一阶段,中国最终也很可能会在这场竞赛中胜出,因为他们能够更快地将这类技术大规模应用到实际产品中。”

另一方面,这更预示着 AI 技术正在走向更高效、更开放的发展模式。相比传统的“规模至上”路线,DeepSeek 展现的高效创新路径或将重新定义 AI 发展的范式。

参考资料:

1.https://arxiv.org/html/2412.14135v1

2.https://arxiv.org/pdf/2408.15664

3.DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub

4.https://developer.download.nvidia.cn/compute/cuda/docs/CUDA_Architecture_Overview.pdf

排版:刘雅坤

ad1 webp
ad2 webp
ad1 webp
ad2 webp