CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

历史分水岭：DeepSeek GitHub星数超越OpenAI！大佬揭秘仅用450美元训推理模型

2025-02-07 19:17:09

新智元报道

编辑：编辑部

【新智元导读】刚刚，DeepSeek的GitHub星数，超越了OpenAI！V3的Star数，如今已经碾压OpenAI最热门的项目。机器学习大神的一篇硬核博文，直接帮我们揭秘了如何仅用450美元，训出一个推理模型。

就在刚刚，历史性的一刻出现了。

DeepSeek项目在GitHub平台上的Star数，已经超越了OpenAI。

热度最高的DeepSeek-V3，Star数如今已达7.7万。

做出这一发现的网友们，第一时间截下了图

可以说，这是开源AI历史上的一个里程碑！

而DeepSeek-R1，更是仅用了3周时间，就超越了「openai-cookbook」。

前有App Store登顶，今有GitHub超越，网友们高呼：永远不要低估开源社区的力量！

如今，DeepSeek的势头越来越猛。

相信大家都发现，DeepSeek的服务器简直要爆了。

甚至就在昨天，DeepSeek还不得不官宣：暂停API充值。

原因当然就是因为，用户的热情实在太火爆，服务器真扛不住了。

最近，关于DeepSeek的一些流传甚广的说法，也纷纷有专家辟谣了。

澄清一：DeepSeek绕过了CUDA架构

其中一个广为流传的说法是DeepSeek绕过了CUDA。

这源于DeepSeek的论文中提到，模型采用了PTX编程，通过这样的定制优化，让模型能更好地释放底层硬件的性能。

「我们采用定制的PTX（并行线程执行）指令并自动调整通信块大小，这大大减少了L2缓存的使用和对其他SM的干扰」

严谨来说，DeepSeek通过编写PTX解决了跨芯片通信瓶颈，虽然复杂，但降低了开销、提升了效率。

本质上，PTX仍然是位于CUDA驱动层内部的一个组件，是英伟达CUDA编程模型的一部分，能将CUDA源代码（C/C++）转变为机器指令的一个中间阶段。

在运行时，PTX会进一步被编译成在GPU上运行的最终机器码（SASS）。

而DeepSeek团队的聪明之处就在于，用这种方法能更好地实现对底层硬件的编程和调用。

这种主动优化，无论在H800还是H100上都能提高通信互联效率。

因此，DeepSeek仍然没有摆脱CUDA生态。

澄清二：R1的训练成本，绝不仅仅是600万美元！

而关于DeepSeek-R1的另一个谣言，就是R1的训练成本大约是600万美元。

之所以有这个说法，来源于DeepSeek-V3论文中的相关论述

开发者大神Sebastian指出，很多人都混淆了DeepSeek-V3和DeepSeek-R1。（前者要早1个月）

其中，DeepSeek-V3中宣称的550万美元，是基于GPU成本、GPU小时数、数据集规模和模型规模等估算出来的。

但DeepSeek团队从没公开过R1确切的GPU小时数或开发成本，目前已有的任何成本估算都只是猜测。

除此之外，Stability AI前研究总监Tanishq Mathew Abraham也在最近的博文中指出，R1在V3基础上进行的强化学习，以及最终训练前团队的大量的小规模实验和消融研究都未包含在内。

更何况还有研究者的薪资，据传已经跟OpenAI、Anthropic等顶级机构的薪资相当（高达100万美元）。

V3和R1，开启推理模型大变局

DeepSeek V3和R1发布后，将怎样搅动此后的LLM江湖？

预算紧张的情况下，怎么开发推理模型？

最近，机器学习大神Sebastian Raschka的这篇长篇博文，为我们做出了硬核预测，并且破除了不少民间对DeepSeek的误解。

Sebastian表示，很多人都来询问自己对DeepSeek-R1的看法。

在他看来，这是一项了不起的成就。

作为一名研究工程师，他非常欣赏那份详细的研究报告，它让自己对方法论有了更深入的了解。

最令人着迷的收获之一，就是推理如何从纯强化学习行为中产生。

甚至，DeepSeek是在MIT许可下开源模型的，比Meta的Llama模型限制更少，令人印象深刻。

在本文中，Sebastian介绍了构建推理模型的四种方法，来提升LLM的推理能力。

图中总结了DeepSeek R1的训练流程。

（1）DeepSeek-R1-Zero：该模型基于2024年12月发布的DeepSeek-V3。研究团队采用RL进行训练，并使用了两种奖励类型。这种方式称为冷启动训练，因为它没有采用RLHF中的SFT步骤。

（2）DeepSeek-R1：这是DeepSeek的旗舰推理模型，构建于DeepSeek-R1-Zero基础上。团队通过额外的SFT阶段和进一步的RL训练，对模型进行了优化。

（3）DeepSeek-R1-Distill：利用前述步骤中生成的SFT数据，团队对Qwen和Llama模型进行了微调，以增强它们的推理能力。尽管不是传统意义上的蒸馏，但该过程是用DeepSeek-R1的输出，来训练较小的模型（Llama 8B和70B，Qwen 1.5B–30B）。

构建推理模型的四种方法

推理时扩展

想要提升LLM的推理能力，或者是其他任何能力，有一种方法叫推理时扩展，就是在推理过程中增加计算资源，让输出的结果质量更高。

人类在解决复杂问题时，如果思考时间更充裕，往往能给出更好的答案。

有一种推理时扩展的简单方法，是巧妙的运用提示工程。思维链（CoT）提示法是一个经典例子，在处理复杂问题时，通常能得到更准确的结果。

另一种推理时扩展的方法是使用投票和搜索策略。

一个简单的例子是多数投票方法，让LLM生成多个答案，然后通过投票选出正确答案。

同样，也可以使用束搜索（beam search）和其他搜索算法来生成更好的响应。

推测OpenAI的o1和o3模型使用了推理时扩展。此外，o1和o3可能还运用了与DeepSeek R1类似的RL流程来训练。

纯强化学习（RL）

DeepSeek R1论文中的一个亮点是，推理行为可以通过纯强化学习（RL）产生。

通常在RL训练之前，会先进行SFT，但DeepSeek-R1-Zero完全通过RL训练，没有初始的SFT阶段。

DeepSeek-R1-Zero的一个关键区别是它跳过了SFT阶段。

在奖励机制上，DeepSeek没有采用基于人类偏好的奖励模型，而是采用了准确性奖励和格式奖励。

- 准确性奖励，是用LeetCode编译器来验证编程答案，并用确定性系统评估数学回答。

- 格式奖励，则靠LLM评判器，保证回答符合预期格式，比如把推理步骤放在标签里。

让人意外的是，靠这种方法，LLM就能发展出基本的推理能力。

研究人员观察到「顿悟时刻」：模型开始在回答中生成推理过程，即使没有专门训练它这么做。

尽管R1-Zero并不是性能最优的推理模型，但它通过生成中间的思考步骤展示了推理能力。这证明用纯强化学习（RL）开发推理模型是可行的。

监督微调和强化学习（SFT+RL）

旗舰模型DeepSeek-R1通过结合额外的SFT和RL，提升了模型的推理表现。

在RL之前进行SFT是常见的做法，标准的RLHF流程就是如此。OpenAI的o1模型很可能也是用类似方法开发的。

如图所示，团队用DeepSeek-R1-Zero生成了冷启动SFT数据。通过指令微调训练模型，接着又进行了一轮RL。

在这一轮RL中，保留了DeepSeek-R1-Zero的准确性奖励和格式奖励，还新增了一致性奖励，来避免语言混杂。

RL结束后，又开始新一轮SFT数据收集。在这个阶段，用最新的模型生成了60万条CoT SFT示例，同时用DeepSeek-V3基础模型创建了另外20万条SFT示例。

上述样本随后被用于另一轮RL训练。在这个阶段，对于数学和编程问题，还是用基于规则的方法进行准确性奖励。对于其他类型的问题，则用人类偏好标签来评判。

经过多轮训练，DeepSeek-R1的性能有了显著提升。

纯监督微调（SFT）和蒸馏

到目前为止，已经介绍了三种用于改进LLM推理能力的方法，最后是模型「蒸馏」。

这里「蒸馏」是指用较大LLM生成的数据集对较小的LLM（如Llama 8B和70B以及Qwen 2.5模型，范围从0.5B到32B）进行指令微调。

实际上，这个蒸馏过程中的SFT数据集，和之前用来训练DeepSeek-R1的数据集是一样的。

为什么开发蒸馏模型？可能有两个关键原因：

1较小的模型更高效。小模型运行成本更低，还能在配置较低的硬件上运行。对研究人员来说很有吸引力。

2纯SFT的案例研究。这些模型展示了在没有RL的情况下，单纯靠SFT能把模型优化到什么程度。

团队将DeepSeek-R1-Zero中的纯RL方法直接应用于Qwen-32B。

结果表明，对于较小的模型，蒸馏远比纯RL更有效。

仅靠RL可能不足以让小模型具备强大的推理能力，在高质量推理数据上进行SFT，或许是对小模型更有效的策略。

接下来一个有趣的方向是把RL+SFT和推理时扩展结合起来，OpenAI的o1很有可能是这样做的，只不过它可能基于一个比DeepSeek-R1更弱的基础模型。

R1和o1相比如何？

Sebastian认为，DeepSeek-R1和OpenAI o1大致在同一水平。

不过引人注目的一点是，DeepSeek-R1在推理时间上更高效。

这就揭示了二者的区别：DeepSeek可能在训练过程中投入了更多，而OpenAI更依赖于o1的推理时扩展。

而很难直接比较两个模型的难点，就在于OpenAI并没有披露太多关于o1的信息。

现在关于o1，还有很多未解之谜。

比如，o1也是一个MoE吗？它究竟有多大？

或许，o1只是GPT-4o的一个略微改进版本，加上最小量的强化学习和微调，仅在推理时进行大规模scaling？

不了解这些细节，是很难直接比较的。

预算只有几十万美元，能开发推理模型吗

不过，想开发一个DeepSeek-R1这样的推理模型，哪怕是基于开放权重的基础模型，也可能需要几十万美元甚至更多资金。

这对预算有限的研究人员或工程师来说，实在是望而却步。

好消息是：蒸馏能开辟新路径！

模型蒸馏提供了一个更具成本效益的替代方案。

DeepSeek团队的R1蒸馏模型证明了这一点，尽管这些模型比DeepSeek-R1小得多，推理表现却强得惊人。

不过，这种方法也不是完全没有成本。他们的蒸馏过程用了80万条SFT样本，这需要大量的计算资源。

有趣的是，就在DeepSeek-R1发布的前几天，关于Sky-T1的文章中，一个团队用1.7万条SFT样本，就训练出了一个32B参数的开放权重模型。

总成本仅有450美元，甚至比大多数人AI会议的注册费还低。

Sky-T1的表现和o1大致相当，考虑到它的训练成本，着实令人惊叹。

项目链接：https://novasky-ai.github.io/posts/sky-t1/

预算有限的纯强化学习：TinyZero

TinyZero是3B参数的模型，它借鉴了DeepSeek-R1-Zero的方法，其训练成本不到30美元。

令人意外的是，尽管只有3B参数，TinyZero仍展现出一些突现的自我验证能力，这证明了小模型通过纯RL也能产生推理能力。

这两个项目表明，即使预算有限，也可以进行有趣的推理模型研究。

两者都借鉴了DeepSeek-R1的方法，一种聚焦于纯RL（TinyZero），另一种聚焦于纯SFT（Sky-T1）。

超越传统SFT：旅程学习

旅程学习被视作捷径学习的替代方案。捷径学习是传统的指令微调方法，模型仅通过正确的解题路径来训练。

旅程学习不仅包括正确的解题路径，还包括错误的解题路径，让模型从错误中学习。

这种方法和TinyZero在纯RL训练中展现的自我验证能力有相通之处，不过它完全依靠SFT来优化模型。让模型接触错误推理路径及修正过程。

旅程学习或许有助于加强自我纠错能力，提升推理模型的可靠性。

论文链接：https://arxiv.org/abs/2410.18982

这一方向对于未来的研究极具吸引力，特别是在低预算的推理模型开发场景中，RL方法可能由于计算成本过高而难以落地。

当前在推理模型领域正有诸多有趣的研究，Sebastian充满期待地表示：相信在未来几个月，还会看到更多令人兴奋的成果！

参考资料：

https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

https://www.tanishq.ai/blog/posts/deepseek-delusions.html

免费功能卷翻付费版ChatGPT，欧洲AI新贵叫板OpenAI

免费功能卷翻付费版ChatGPT，欧洲AI新贵叫板OpenAI

量子位 2025-02-07 17:58:00

宇树G1化身赛博科比，模仿詹姆斯C罗标志性动作

宇树G1化身赛博科比，模仿詹姆斯C罗标志性动作

量子位 2025-02-05 18:44:39

AI生成视频复刻动作，上传视频+一句话即可

AI生成视频复刻动作，上传视频+一句话即可

量子位 2025-02-04 12:32:15

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

AI鉴别神器来了，几秒内就知是否AI生成

AI鉴别神器来了，几秒内就知是否AI生成

量子位 2025-01-23 19:14:34

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

量子位 2025-01-10 16:29:56

MIT开发新方法，无需从头训练机器人即可执行复杂任务

MIT开发新方法，无需从头训练机器人即可执行复杂任务

DeepTech深科技 2024-11-05 18:05:35

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

机器之心Pro 2024-08-13 15:05:29

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

量子位 2024-09-04 18:16:57

o1竟在用中文思考？网友新发现外网热议

o1竟在用中文思考？网友新发现外网热议

量子位 2025-01-22 11:13:04

爆火开源工具Browser Use，能让AI操作浏览器找工作

爆火开源工具Browser Use，能让AI操作浏览器找工作

量子位 2025-01-13 09:50:42

大模型可视化工具爆火，GPT推理过程一目了然

大模型可视化工具爆火，GPT推理过程一目了然

量子位 2024-11-18 15:41:30

视频大模型三大应用价值，推动电影制作降本增效

视频大模型三大应用价值，推动电影制作降本增效

量子位 2024-12-30 15:49:40

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

量子位 2024-12-23 14:58:54

对话型Chatbot难形成高客单价，高附加值是未来关键

对话型Chatbot难形成高客单价，高附加值是未来关键

量子位 2024-12-31 10:52:03

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

量子位 2024-12-23 11:41:50

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

量子位 2025-01-10 16:51:31

To Real面临的挑战：云深处科技李超分享观点

To Real面临的挑战：云深处科技李超分享观点

量子位 2024-12-26 15:37:13

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

量子位 2025-01-02 17:58:49

AI竟会表里不一：人前一套，背后一套！

AI竟会表里不一：人前一套，背后一套！

量子位 2024-12-31 10:12:13

Ilya播客干货引热议：LLM不仅是统计学

Ilya播客干货引热议：LLM不仅是统计学

量子位 2024-12-24 11:34:18

AI暴打验证码，人类遭殃？

量子位 2025-01-02 17:12:56

大模型助力工业质检，效率和准度双提升30% | 创新场景

大模型助力工业质检，效率和准度双提升30% | 创新场景

钛媒体APP 2024-10-21 19:09:12

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

新智元 2025-02-06 15:41:25

进阶必看的GitHub计算机底层神贴！架构硬件语言全资料收集

进阶必看的GitHub计算机底层神贴！架构硬件语言全资料收集

量子位 2025-01-12 12:08:17

小孩高速下车被撞飞，规则意识不容忽视

小孩高速下车被撞飞，规则意识不容忽视

正观黄河评论 2025-02-07 15:35:12

媒体：俄乌双方现极为罕见现象泽连斯基离下课不远了

媒体：俄乌双方现极为罕见现象泽连斯基离下课不远了

新民周刊 2025-02-07 10:17:10

谷歌最强模型Gemini 2.0 Pro第一波网友测评来了

谷歌最强模型Gemini 2.0 Pro第一波网友测评来了

量子位 2025-02-07 15:31:40

饺子导演：《哪吒之魔童闹海》的哪吒会对世界规则有全新认识

饺子导演：《哪吒之魔童闹海》的哪吒会对世界规则有全新认识

1905电影网 2025-02-06 13:54:50

囧叔谈DeepSeek和民主党：特朗普是法西斯主义者的指责

囧叔谈DeepSeek和民主党：特朗普是法西斯主义者的指责

TalkshowCenter 2025-02-03 10:19:33

12名工程师，估值190亿，AI黑马的梦幻故事

12名工程师，估值190亿，AI黑马的梦幻故事

智东西 2025-01-14 20:23:26

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

新智元 2025-02-07 13:25:19

AI编程L1-L5超全分级来了！GitHub Copilot仅L1，Devin是L4

AI编程L1-L5超全分级来了！GitHub Copilot仅L1，Devin是L4

新智元 2025-02-05 12:51:13

让老黄唱野狼Disco，字节新AI火爆外网

让老黄唱野狼Disco，字节新AI火爆外网

量子位 2025-02-06 18:21:32

70年AI研究得出了苦涩的教训：为什么说AI创业也在重复其中的错误

70年AI研究得出了苦涩的教训：为什么说AI创业也在重复其中的错误

机器之心Pro 2025-02-05 14:47:42

用AI自动设计智能体，数学提分25.9%，远超手工设计

用AI自动设计智能体，数学提分25.9%，远超手工设计

机器之心Pro 2024-08-23 10:40:17

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

Jeff Dean亲授职业秘籍，力荐计算机！编码改变全世界

Jeff Dean亲授职业秘籍，力荐计算机！编码改变全世界

新智元 2024-10-21 14:11:16

成本不到150元！李飞飞等26分钟训出推理模型媲美R1，秘诀：蒸馏

成本不到150元！李飞飞等26分钟训出推理模型媲美R1，秘诀：蒸馏

量子位 2025-02-07 08:27:19

为什么只有AI编程成功落地？

虎嗅APP 2025-01-14 12:02:04