CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键

2025-02-01 22:02:31

新智元报道

编辑：Aeneas

【新智元导读】奥特曼罕见地承认了自己犯下的「历史错误」，LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪？圈内热转的这篇分析指出，相比R1，R1-Zero具有更重要的研究价值，因为它打破了终极的人类输入瓶颈！

DeepSeek再度创造历史。

居然能逼得OpenAI CEO奥特曼承认：「我们在开源/开放权重AI模型方面，一直站在了历史的错误一边。」

LeCun也发文指出，硅谷圈子的常见病，就是一种错位的优越感。

高级阶段的症状，是认为小圈子就能垄断好的想法。而晚期症状就是，假设来自他人的创新都是靠作弊。

DeepSeek的最大意义在哪里？

ARC Prize联合创始人Mike Knoop发出长文中总结道——R1-Zero打破了最终的人类输入瓶颈——专家CoT标注！其中一个例子，就是监督微调（SFT）。

从R1-Zero到AGI，一切都与效率有关。

另一个值得注意的观点就是：相比R1，R1-Zero具有更重要的研究价值。

这是因为，R1-Zero完全依赖强化学习（RL），而不使用人类专家标注的监督微调（SFT）。

这就表明，在某些领域，SFT并非实现准确清晰CoT的必要条件，完全有可能让AI通过纯粹的RL方法实现广泛推理能力。

以下为Mike Knoop的完整分析。

从此，推理计算需求激增

上周，DeepSeek发布了他们新的R1-Zero和R1「推理」系统，在ARC-AGI-1基准测试上的表现可与OpenAI的o1系统相媲美。

R1-Zero、R1和o1（低算力模式）都取得了15-20%的得分，而GPT-4o仅为5%——而这已是多年纯LLM scaling的巅峰成果。

根据本周美国市场的反应，公众也开始理解了纯LLM scaling的局限性。

然而，大多数人仍没有意识到推理计算需求即将激增的问题。

2024年12月，OpenAI发布了一个新的突破性系统o3，经过验证，该系统在低算力模式下得分76%，高算力模式下得分88%。

o3系统首次展示了计算机在面对全新、未知问题时进行适应的通用能力。

尽管o3在ARC-AGI-1基准测试中取得了突破性的成绩，但这一科技大事件却在主流媒体中几乎未被报道，也未引起广泛关注。

这是AI和计算机科学领域的一个极其重要的时刻，这些系统值得深入研究。

然而，由于o1和o3是闭源的，我们只能依靠推测进行分析。

幸运的是，借助ARC-AGI-1，以及现在（几乎）开源的R1-Zero和R1，我们能够进一步加深对这一领域的理解。

这里的「几乎」指的是，DeepSeek并未公布从零开始复现其模型权重的方法。

特别值得注意的是，相比R1，R1-Zero具有更重要的研究价值。

R1-Zero比R1更值得分析：它消除了人为瓶颈

在对o1和o3的分析中，ARC Prize团队对这些推理系统的工作原理进行了推测。

它们的关键思路如下：

为特定问题领域生成思维链（CoT）。
使用人工专家（「监督微调」SFT）和自动化机器（「强化学习」RL）的组合对中间的CoT步骤进行标注。
利用（2）中标注的数据训练基础模型。
在测试时，模型会基于这一推理过程进行迭代推理。

下图回顾了用于各模型用于迭代采样的技术，及其在ARC-AGI-1评分的相关情况。

随着DeepSeek发表的新研究，ARC Prize团队就可以更好地验证自己的推测。

一个关键的发现是，LLM推理系统在适应新颖性（以及提高可靠性）方面的提升，主要沿着以下三个维度展开：

为CoT过程模型的训练添加人工标注，即SFT（监督微调）。
使用CoT搜索而非线性推理（即每个步骤并行进行CoT推理）。
进行整体CoT采样（即并行推理整个轨迹）。

第（1）点受到人工数据生成的限制，因此决定了哪些领域的推理系统能从中受益最大。

例如，在o1系统上，MMLU中的专业法律类目得分远低于数学和逻辑类目，这令人颇感意外。

第（2）和（3）点的主要瓶颈在于计算效率。

o1和o3都在ARC-AGI-1基准测试上表现出对推理计算量的对数式改进，即它们在测试时使用越多的计算资源，基准准确率就越高。

同时，不同的计算方式会影响这条曲线在x轴上的位置。

ARC Prize团队认为，DeepSeek最有趣的做法是单独发布了R1-Zero。R1-Zero不使用SFT（即不依赖人工标注），完全依赖强化学习（RL）。

R1-Zero和R1在ARC-AGI-1上的得分高度一致，分别为14%和15%。

此外，DeepSeek自己发布的基准测试结果也表明R1-Zero和R1的表现相近，例如在 MATH AIME 2024上的得分分别为71%和76%（相比之下，基础模型DeepSeek V3的得分仅为约40%）。

在论文中，R1-Zero的作者指出：「DeepSeek-R1-Zero在可读性较差和语言混杂等方面存在挑战」，这一点也在网络上得到了印证。

然而，在ARC Prize团队的测试中，他们却几乎没有发现R1-Zero在ARC-AGI-1上表现出不连贯性，而这一测试任务与该系统通过强化学习训练的数学和编程领域相似。

综合这些发现，ARC Prize团队得出了以下结论：

在具有强可验证性的领域，SFT（即人工专家标注）并非实现准确且清晰的 CoT（思维链）推理的必要条件。
R1-Zero的训练过程能够通过RL优化，在token空间内自发构建内部的特定领域语言（DSL，Domain-Specific Language）。
SFT在提升CoT推理的跨领域泛化能力方面是必要的。

这一点符合直觉，因为语言本质上也是一种推理DSL。相同的「词」可以在一个领域中学习，并在另一个领域中应用，就像程序一样。

而纯RL方法目前尚未能够发现一个广泛共享的词汇体系，这可能会成为未来研究的一个重要方向。

最终，R1-Zero展示了一种潜在的扩展路径——即使在训练数据采集阶段，也完全消除了人工瓶颈。

可以肯定的是，DeepSeek 的目标是挑战OpenAI的o3系统。

接下来的关键观察点在于：SFT是否仍然是CoT搜索和采样的必要条件，或者是否可以构建一个类似「R2-Zero」的系统，在相同的对数式推理计算扩展曲线上继续提升准确率。

根据R1-Zero的实验结果，团队认为，在这种假设的扩展版本中，SFT并不是超越ARC-AGI-1所必需的条件。

用更多资金，换取AI的可靠性

从经济角度来看，AI领域正在发生两大重要变化：

投入更多资金，以获得更高的准确性和可靠性。
训练成本正在向推理成本转移。

这两点都将极大地推动推理计算的需求，同时也不会抑制对更强计算资源的需求，反而会进一步增加计算需求。

AI 推理系统的价值，远不止于提高基准测试中的准确率。

当前阻碍AI更广泛自动化应用（即推理需求）的首要问题，就是可靠性。

ARC Prize团队曾与数百位试图在业务中部署AI智能体的Zapier客户交流过，他们的反馈高度一致：「我还不信任它们，因为它们的工作表现不够稳定。」

以前，ARC Prize曾提出，朝着ARC-AGI方向的进展将提升AI可靠性。

LLM智能体的主要挑战在于，它们需要强有力的本地领域控制才能稳定运行。

而更强的泛化能力，要求AI能够适应全新的、未见过的情况。如今，已有证据表明这一观点是正确的。

因此，Anthropic、OpenAI、Apple等多家公司纷纷推出AI智能体也不足为奇。

由于可靠性需求，智能体将推动短期内的推理计算需求增长。

此外，开发者可以选择投入更多计算资源，以提高用户对系统的信任度。

然而，更高的可靠性并不意味着100%的准确性——但它能让错误更加稳定、可预测。

这反而是可接受的，因为当准确率较低时，用户和开发者可以通过提示词更稳定地引导 AI行为。

过去被认为计算机无法解决的问题，如今都可以用金钱衡量其解决成本。随着AI计算效率的提升，这些成本也将逐渐下降。

推理即训练：AI数据获取范式或将永久转变

另一个正在发生的重要变化，是用于LLM预训练的数据来源。

过去，大多数训练数据要么是购买的，要么是从网络爬取的，要么是由现有的LLM合成生成（例如蒸馏或数据增强）。

但推理系统提供了一种全新的选择——生成「真实」数据，而非传统意义上的「合成」数据。

AI行业通常将「合成数据」视为质量较低的数据，这些数据通常是通过LLM循环生成的，仅仅是为了增加训练数据的总体规模，但其收益会逐渐递减。

如今，借助推理系统和验证器，我们可以创造全新的、有效的数据来进行训练。这可以通过两种方式实现：

离线生成 ——开发者支付费用来创建数据。
推理时生成 ——终端用户支付费用来创建数据。

这是一种引人注目的经济模式转变，可能会导致AI系统开发者之间出现「赢家通吃」的局面。

拥有最多付费用户的AI公司将拥有巨大的数据垄断优势，因为这些用户在无形中资助了新高质量数据的创建，而这些数据反过来又进一步提升模型能力，使其更受用户青睐……由此形成一个自增强的良性循环。

如果我们能够突破人类专家CoT标注的瓶颈，并构建一个极高效的搜索/合成+验证系统来自动生成新数据，那么可以预见，未来将会有大量计算资源投入到这些推理系统中。

因为这些系统的训练效果将直接与资金投入和数据输入量挂钩，也就是说，只要投入资金和原始数据，模型就会变得更强。

最终，这种AI训练模式将彻底取代基于人类生成数据的预训练方法。

结论：DeepSeek推动全世界科学发展

随着推理需求的增长变得更加明确，市场将继续经历调整。

AI 系统的效率提升不仅会推动更多的应用，这不仅符合杰文斯悖论，更重要的是，更高的计算效率解锁了全新的训练范式。

随着R1的开源和可复现性，越来越多的个人和团队将探索CoT和搜索技术的极限。

这将帮助我们更快地厘清当前AI研究的前沿在哪里，并推动一波技术创新浪潮，从而加速通向 AGI的进程。

已经有几位研究者告诉ARC Prize团队，他们计划在2025年ARC奖中使用R1风格的系统，这让人非常期待看到最终的结果。

R1的开源，对整个世界来说都是一件好事。DeepSeek推动了科学的前沿发展，并为AI 研究带来了新的突破。

参考资料：

https://arcprize.org/blog/r1-zero-r1-results-analysis

最新！OpenAI上架推理模型o3-mini，首次向免费用户开放！AIME测试中，o3-mini最高准确率达87.3%

最新！OpenAI上架推理模型o3-mini，首次向免费用户开放！AIME测试中，o3-mini最高准确率达87.3%

每日经济新闻 2025-02-01 07:51:40

耗资540亿欧元，法国AI大模型LUCIE推出3天就紧急下架，称“牛会下蛋”

耗资540亿欧元，法国AI大模型LUCIE推出3天就紧急下架，称“牛会下蛋”

城市大眼睛 2025-01-30 23:14:20

相声：想要创业成功，需要先找老和尚做大宝剑，老郭这是什么逻辑

相声：想要创业成功，需要先找老和尚做大宝剑，老郭这是什么逻辑

热点网友 2025-02-01 16:27:16

DeepSeek爆火震动硅谷，背后天才少女差点无缘AI

DeepSeek爆火震动硅谷，背后天才少女差点无缘AI

界面新闻 2025-01-28 14:38:00

台媒：很多人还不明白deepseek有多伟大！属于国运级别的科技成果

台媒：很多人还不明白deepseek有多伟大！属于国运级别的科技成果

听成世界酷 2025-01-31 01:14:15

俄军苏-27向乌军投掷滑翔炸弹战机投完弹扭头就走

俄军苏-27向乌军投掷滑翔炸弹战机投完弹扭头就走

台海青年 2025-02-01 15:11:17

陈梦确实没的喷，看打球的力道和技术，对手直接怀疑人生！

陈梦确实没的喷，看打球的力道和技术，对手直接怀疑人生！

发怒的福猫 2025-01-31 10:03:00

印度高官盛赞中国Deepee模型

印度高官盛赞中国Deepee模型

小呆呆蛋仔派对 2025-02-01 04:29:54

女子和狗同吃一个冰淇淋，给小狗舔舐后自己接着舔着吃

女子和狗同吃一个冰淇淋，给小狗舔舐后自己接着舔着吃

众横四海 2025-02-01 16:17:17

乘客质疑高铁座位设计，“靠窗”却不真靠的原因，布局背后的逻辑

乘客质疑高铁座位设计，“靠窗”却不真靠的原因，布局背后的逻辑

小二铲史官 2025-02-01 07:47:07

DEEPSEEK 遭到美国黑客攻击，中国红客集结，开始反进攻

DEEPSEEK 遭到美国黑客攻击，中国红客集结，开始反进攻

烈火战鹰 2025-01-31 11:46:17

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

这种触觉和味觉共享技术你会怎么用？

这种触觉和味觉共享技术你会怎么用？

MissXu老徐 2025-02-01 09:59:44

美国发动所有网攻！DeepSeek三特质成美心腹大患，数学测试是关键

美国发动所有网攻！DeepSeek三特质成美心腹大患，数学测试是关键

AI次世代 2025-01-30 16:07:21

突发公告：限流！上海市民直呼：绝不可能，空手而归！有人一转眼，家人挤丢了

突发公告：限流！上海市民直呼：绝不可能，空手而归！有人一转眼，家人挤丢了

上观新闻 2025-02-01 11:27:40

两位美女晨练，每一个动作都是技术，攀比使人面目全非

两位美女晨练，每一个动作都是技术，攀比使人面目全非

笔笔皆笑 2025-01-30 14:37:00

虽然没进球，莱万在巴萨体系里很重要

虽然没进球，莱万在巴萨体系里很重要

米奇兔 2025-01-30 12:22:03

男孩炸化粪池后续：已被警察带走！全网都在问：要赔多少钱？

男孩炸化粪池后续：已被警察带走！全网都在问：要赔多少钱？

新民晚报 2025-02-01 17:39:01

完美修复，二战时期的巴黎JEP“电动火车模型”

完美修复，二战时期的巴黎JEP“电动火车模型”

麦克斯的修复领域 2025-01-29 22:15:00

DeepSeek锐评中意未来关系

DeepSeek锐评中意未来关系

意讯 2025-02-01 22:12:12

英、法、德发布联合声明

新京报 2025-02-01 08:01:29

直降95%！激光雷达降到白菜价，中国厂商让马斯克骑虎两难

直降95%！激光雷达降到白菜价，中国厂商让马斯克骑虎两难

知嘹汽车 2025-02-01 17:39:54

何为资本主义？马克思《资本论》：商品、货币、流通的基本逻辑

何为资本主义？马克思《资本论》：商品、货币、流通的基本逻辑

飞驰论坛o 2025-01-29 00:23:50

深圳市国资委党委书记、主任人选调整；深圳算法新成果发布，深圳北理莫+南科大师生联手开发 |深圳特事

深圳市国资委党委书记、主任人选调整；深圳算法新成果发布，深圳北理莫+南科大师生联手开发 |深圳特事

深圳梦 2025-02-01 22:41:52

弯道超车：幸亏大货车技术好！不然接挤沟里去！

弯道超车：幸亏大货车技术好！不然接挤沟里去！

冠世 2025-01-30 19:35:34

投资19亿评分6.1，万众期待的侏罗纪3，为什么变成了“猪逻辑”？

投资19亿评分6.1，万众期待的侏罗纪3，为什么变成了“猪逻辑”？

赖赖影视521 2025-01-30 08:50:57

问了DeepSeek，“非典型做题家”梁文峰们给创新人才培养的10条建议

问了DeepSeek，“非典型做题家”梁文峰们给创新人才培养的10条建议

京城教育圈 2025-02-01 20:28:56

车载ECU测试技术深度分析与思考

车载ECU测试技术深度分析与思考

新能源自动驾驶 2025-01-31 20:19:07

1987年高考题：类比推理，与“新疆：乌鲁木齐”逻辑一致的选项？

1987年高考题：类比推理，与“新疆：乌鲁木齐”逻辑一致的选项？

中华小文库 2025-02-01 18:11:18

亚冬会开幕在即多支运动队陆续抵达哈尔滨

亚冬会开幕在即多支运动队陆续抵达哈尔滨

环球网资讯 2025-02-01 14:59:10

首席执行官奥特曼罕见"认错" 考虑OpenAI开源策略

首席执行官奥特曼罕见"认错" 考虑OpenAI开源策略

每日经济新闻 2025-02-01 12:07:04

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

机器之心Pro 2024-09-27 16:13:36

2025，Agent生死竞速

钛媒体APP 2025-01-08 19:18:23

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

新智元 2025-02-01 06:03:46

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

OpenAI招了个高中辍学的，入职Sora团队专攻AGI

OpenAI招了个高中辍学的，入职Sora团队专攻AGI

量子位 2024-12-05 14:10:36

AI算力支出超140亿，DeepSeek遭遇美国OpenAI全新o3-mini模型反击｜钛媒体AGI

AI算力支出超140亿，DeepSeek遭遇美国OpenAI全新o3-mini模型反击｜钛媒体AGI

钛媒体APP 2025-02-01 10:45:17

趋势2025 | 人工智能走向分化，行业大模型繁花似锦

趋势2025 | 人工智能走向分化，行业大模型繁花似锦

通信世界 2025-01-10 19:55:51

Telegram创始人：如果美国教育体系不变，中国科技主导地位将不可避免

Telegram创始人：如果美国教育体系不变，中国科技主导地位将不可避免

俄罗斯卫星通讯社 2025-02-01 16:04:42