DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

新智元报道

编辑：编辑部 Yhs

【新智元导读】中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型，成功秘诀竟是强化学习，不用监督微调。AI大佬们一致认为，这就是AlphaGo时刻。

一觉醒来，AGI就实现了？！中国开源版o1，直接冲爆了整个AI圈。

继DeepSeek V3之后，DeepSeek再次官宣了全新推理模型——DeepSeek-R1。

让所有人为之震惊的是，新模型直接与o1打平手，关键还是开源版的o1。

当人们扒开其22页技术报告后发现，DeepSeek-R1在强化学习阶段之前，没有进行微调SFT，便在性能上刷新SOTA。

也就是说，R1自己就学会了推理，就像战胜人类的AlphaZero/AlphaGo一样。

还有一点，就是连研究人员都没有预料到——R1竟出现了「啊哈」时刻！

研究人员称，这一刻凸显了强化学习的力量和美妙之处。

「我们没直接教模型如何解决问题，只是给予它正确的激励，模型就能自己琢磨出先进的解题办法。」

这是首个验证LLM推理能力的实现可以纯粹通过RL，无需监督微调的开源研究

此次，R1震惊四座的表现，让强化学习算法再次破局，甚至有网友表示，「2025年或许就是RL之年」。

英伟达高级科学家Jim Fan对此意有所指地幽默表示道：

「影响可以通过『内部实现的ASI』或像『草莓计划』这样神乎其神的名称来完成。

影响也可以通过简单地展示原始算法和matplotlib学习曲线来实现。」

毫无疑问，DeepSeek的大方开源，让OpenAI显得更加地相形见绌。

目前，官方研究论文已经发布，以供大家研究。

论文地址：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

推理媲美o1，代码击败人类

DeepSeek-R1在后训练时大量运用强化学习技术，在只有少量标注数据的情况下，就能大幅提升模型的推理能力。

在数学、代码以及自然语言推理等任务中，DeepSeek-R1的性能与OpenAI o1正式版不相上下。

在AIME2024测试中，R1取得了79.8%的成绩，略高于OpenAI-o1-1217。

在MATH-500测试里，它更是获得了97.3%的出色成绩，表现与OpenAI-o1-1217相当，且明显超越其他模型。

在编码类任务方面，R1在代码竞赛中展现出专家级水平，在Codeforces平台上获得了2029的Elo评级，在竞赛里的表现超过了96.3%的人类参赛者。

在工程任务中，DeepSeek-R1的表现也稍胜OpenAI-o1-1217一筹。

DeepSeek-R1的基准测试对比

DeepSeek此次共推出了两款推理模型：DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero是通过大规模强化学习（RL）训练而成，没有经过监督微调（SFT）预处理，也展现出出色的推理能力。不过，该模型存在一些问题，比如推理内容可读性欠佳，还会出现语言混杂的情况。

为解决这些问题并进一步提升推理性能，研究团队推出DeepSeek-R1。

DeepSeek-R1在RL前加入多阶段训练，并使用冷启动数据。DeepSeek-R1在推理任务上的表现，与OpenAI-o1-1217相当。

为支持研究社区发展，研究团队开源了DeepSeek-R1-Zero、DeepSeek-R1，以及6个基于Qwen和Llama提炼的DeepSeek-R1模型，参数规模分别为1.5B、7B、8B、14B、32B和70B。

借助DeepSeek-R1的输出，团队提炼出6个小模型并开源。其中，32B和70B参数的模型，在多项能力上达到了与OpenAI o1-mini相当的水平。

从下表中可以看出，DeepSeek-R1-Distill-Qwen-32B在AIME 2024中的得分达到72.6%，在MATH-500中得分为94.3%，在LiveCodeBench中得分为57.2%。这些成绩都远超之前的开源模型，与o1-mini不相上下。

抛弃SFT，全靠强化学习

对于预训练大模型而言，监督微调（SFT）是极为关键甚至必不可少的训练技巧。

SFT就是先用大量人工设定标准的数据进行训练，之后再通过强化学习进一步自我优化。以往在提升模型性能时，依赖于大量的监督数据。

但本项研究证明，即使不借助监督微调（SFT）来启动模型，仅依靠大规模强化学习，同样能显著提升模型的推理能力。不仅如此，若加入少量冷启动数据，模型性能还能进一步提高。

DeepSeek-R1-Zero直接在基础模型上应用RL，无需任何SFT数据。SFT曾是ChatGPT成功的关键，如今R1 Zero却用RL替代了SFT。

图中呈现了DeepSeek-R1-Zero在AIME 2024基准测试里，RL训练期间性能的变化。随着RL训练逐步推进，DeepSeek-R1-Zero的性能稳定且持续提升，证明了RL算法的有效性。

表格对比分析了DeepSeek-R1-Zero和OpenAI的o1-0912模型在多项推理基准测试中的表现。结果显示，通过RL，即便没有监督微调数据，DeepSeek-R1-Zero依然获得了强大的推理能力。这一成果意义非凡，表明模型仅依靠RL就能学习并实现泛化。

DeepSeek-R1

DeepSeek-R1-Zero在从基础模型开启RL训练时，早期的冷启动阶段不太稳定。为避免这种情况，DeepSeek-R1中构建并收集了一小部分长推理链（CoT）数据。

研究者收集了成千上万条冷启动数据，用来微调DeepSeek-V3-Base，这一方法显著提升了可读性，有效处理了多语言混杂的情况。

用冷启动数据对DeepSeek-V3-Base完成微调后，研究者采用与DeepSeek-R1-Zero一样的大规模RL训练流程。

训练时发现，思维链（CoT）经常出现语言混合的情况，特别是当RL提示词涉及多种语言的时候。

为解决这个问题，研究者在RL训练中加入语言一致性奖励，通过计算CoT里目标语言词汇的比例来确定奖励。虽然消融实验显示，这种调整会让模型性能稍有下降，但它符合人类阅读偏好，能让输出内容可读性更强。

当以推理为导向的RL达到收敛后，研究者借助此时得到的检查点，收集用于监督微调（SFT）的数据，用于后续的训练。

与一开始主要聚焦推理的冷启动数据不同，这个阶段会引入其他领域的数据，从而提升模型在写作、角色扮演以及其他通用任务方面的能力。

为了让模型更好地契合人类偏好，研究者运用奖励信号，搭配多样化的提示词来训练模型。通过整合奖励信号和多样化的数据分布，成功训练出一款模型。它不仅推理能力出色，还能将实用性和安全性放在首位。

团队还分享了失败的尝试，包括过程奖励模型和蒙特卡洛搜索。同时他们也强调了，这并不意味着这些方法无法开发出有效的推理模型。

未来，团队打算从这几个方向对DeepSeek-R1展开研究：

- 提升通用能力：目前，DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出这些任务上，能力不如DeepSeek-V3。接下来，团队计划研究如何借助长链推理（CoT），提升在这些领域的任务处理能力。

- 解决语言混合问题：DeepSeek-R1当前主要针对中文和英文做了优化，在处理其他语言的查询时，可能会出现语言混合的情况。比如用户用非中文和英文提问，DeepSeek-R1仍可能用英文推理并作答。计划在后续更新中解决这个问题。

- 优化提示词工程：评估DeepSeek-R1时，发现它对提示词很敏感。少样本提示词常常会降低其性能。所以，建议用户在零样本设置下，直接描述问题并指定输出格式，以获取最佳效果。

- 改进软件工程任务：因为评估过程耗时太长，影响了RL训练的效率，导致DeepSeek-R1在软件工程基准测试上，未取得明显进步。未来会通过对软件工程数据采用拒绝采样，或者在RL中引入异步评估的方式来提高效率。

参考资料：

https://x.com/deepseek_ai/status/1881318130334814301

https://x.com/DrJimFan/status/1881353126210687089

https://github.com/deepseek-ai/DeepSeek-R1

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦