CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

2025-02-13 16:14:33

新智元报道

编辑：编辑部 HNYZ

【新智元导读】近日，斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B，性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。

32B推理模型，仅用1/8数据，与同尺寸DeepSeek-R1打成平手！

就在刚刚，来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B，并同时开源了高达114k的训练数据。

项目主页：https://www.open-thoughts.ai/blog/scale

Hugging Face：https://huggingface.co/open-thoughts/OpenThinker-32B

数据集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

团队发现：采用经DeepSeek-R1验证标注（基于R1蒸馏）的大规模优质数据集，便可训练出SOTA的推理模型。

具体方法，就是通过数据规模化、推理过程验证以及模型规模扩展。

由此得到的OpenThinker-32B，在数学、代码和科学等多个基准测试中，OpenThinker-32B性能直接碾压了李飞飞团队s1和s1.1模型，直逼R1-Distill-32B。

值得一提的是，相比于使用了800k数据（包含600k个推理样本）的R1-Distill，OpenThinker-32B仅用了114k数据，就能拿下几乎同等的优异成绩。

结果均通过开源评估框架Evalchemy计算得出

除此之外，OpenThinker-32还把模型权重、数据集、数据生成代码、训练代码上，全部都给公开了！

数据策展

研究人员使用了与之前训练OpenThinker-7B模型相同的OpenThoughts-114k数据集来训练OpenThinker-32B。

他们利用DeepSeek-R1模型，收集了精心挑选的17.3万个问题的推理过程和解答尝试。然后将这些原始数据作为OpenThoughts-Unverfied-173k数据集公开发布。

整个流程的最后一步是，如果推理过程未能通过验证，就过滤掉相应的数据样本。

下图可视化地展示了整个过程。

研究团队首先输入源数据或问题提示，这些内容可以来自不同的领域和平台，如BAAI/TACO、DeepMind、Python提交等，涉及代码、谜题、科学和数学等多个方面。

接着这些多元的输入会进入核心的处理模块——DeepSeek-R1，在这里对数据进行分析与处理。这些问题会被分成三个方面，分别是：科学类问题、数学与谜题和代码。

有些结果不需要验证，可能是简单的分析或直接输出。对于一些需要深入验证的内容，利用大语言模型（LLM）采用与GT（Ground Truth）对比的方式进行评判。如果是代码，执行代码并进行单元测试，确保代码的正确性和有效性。

最后能将不同方向的结果结合起来，生成开放的思考和更为综合的解决方案。

研究团队更新了最终的OpenThoughts-114k数据集，加入了一个名为「metadata」的配置，其中包含了一些用于数据集构建的额外列：

problem
ground_truth_solution
test_cases (code only)
starter_code (code only)
DeepSeek_reasoning
DeepSeek_solution
domain
source

这些额外的元数据将使得这个数据集更容易用于新的场景，例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

这些额外的元数据将得使该数据集使用起来更加容易，仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

研究团队表示，他们期待看到社区利用这些问题和标准答案，在OpenThinker模型上进行强化学习（RL）的研究。DeepScaleR已经证明，规模较小时，这种方法效果特别好。

验证

为了得到最终的OpenThoughts-114k数据集，研究团队对答案进行了验证，并剔除了不正确的回答。

如下表所示，保留那些未通过验证的推理过程可能会损害性能，尽管未经验证的模型与其他32B推理模型相比仍然表现良好。

验证的作用在于，在扩大训练提示集的多样性和规模的同时，保持R1注释的质量。另一方面，未经验证的数据可以更容易地扩展，因此也值得进一步探索。

对于代码问题，我们通过对照已有的测试用例来验证解答尝试，从而完成推理过程的验证。

受到代码执行过程中所面临挑战的启发，我们在Curator中实现了一个代码执行框架，使用户能够大规模、安全地执行代码，并对照预期输出进行验证。

对于数学问题，研究团队使用一个LLM（大语言模型）评判器来进行验证，它会同时接收标准答案和DeepSeek-R1的解答尝试。

结果发现，在数据生成过程中，使用LLM评判器而不是更严格的解析引擎（Math-Verify）进行验证，可以获得更高的有效数据率，并能训练出性能更好的下游模型。

训练

研究团队使用LLaMa-Factory对Qwen2.5-32B-Instruct在OpenThoughts-114k数据集上进行了三轮微调，上下文长度为16k。完整训练配置可在GitHub中找到。

OpenThinker-32B在AWS SageMaker集群上使用四个8xH100 P5节点训练了90小时，累计使用了2,880个H100小时。

同时，OpenThinker-32B-Unverified在Leonardo超级计算机上使用96个4xA100节点（每个GPU64GB）训练了30小时，累计使用了11,520个A100小时。

评估

研究团队使用开源评估库Evalchemy（炼金术）对所有模型进行评估。

对于AIME24和AIME25，他们通过平均五次运行的结果来计算准确率。评估配置使用0.7的温度参数，将模型响应限制在32,768个token以内，不添加任何额外的系统或用户提示词，也不使用任何特殊的解码策略（如预算强制）。

当启动OpenThoughts项目时，他们设定了一个目标，即创建一个性能可以达到DeepSeek-R1-Distill-Qwen-32B的开放数据模型。

现在这个差距已经几乎消除。

最后，研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋，并期待基于彼此的洞见继续向前发展。

OpenThinker-32B的开源，证明了数据、验证和模型规模的协同作用是提升推理能力的关键。

这一成果不仅推动了开源推理模型的发展，也为整个AI社区提供了宝贵的资源和启示。

参考资料：

https://x.com/NeginRaoof_/status/1889739171826377008

春晚爆火的机器人被传不再面向个人销售公司辟谣

春晚爆火的机器人被传不再面向个人销售公司辟谣

上游新闻 2025-02-12 22:57:07

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

量子位 2025-02-11 17:02:35

余弦相似度可能没用？对于某些线性模型，相似度甚至不唯一

余弦相似度可能没用？对于某些线性模型，相似度甚至不唯一

机器之心Pro 2025-01-14 14:34:09

大模型可视化工具爆火，GPT推理过程一目了然

大模型可视化工具爆火，GPT推理过程一目了然

量子位 2024-11-18 15:41:30

真实数据的还原与多模态融合是To Real面临的很大挑战

真实数据的还原与多模态融合是To Real面临的很大挑战

量子位 2024-12-26 15:27:49

数据整合与应用是具身智能走向产业的关键

数据整合与应用是具身智能走向产业的关键

量子位 2024-12-26 14:38:20

737二年级数学：不要再一个个试了，数形结合法太好用了

737二年级数学：不要再一个个试了，数形结合法太好用了

我服子佩 2025-02-12 10:50:35

707小学数学易错题：做对3道就是学霸，看看你是学霸吗

707小学数学易错题：做对3道就是学霸，看看你是学霸吗

我服子佩 2025-02-10 10:15:31

730已知长方形面积是20，求中间的三角形面积？要注重数学思维的

730已知长方形面积是20，求中间的三角形面积？要注重数学思维的

我服子佩 2025-02-11 11:42:12

这小学数学题，咋让孩子都掉坑里了？家长们面面相觑

这小学数学题，咋让孩子都掉坑里了？家长们面面相觑

公考客栈店小二 2025-02-12 23:40:40

734二年级数学：在圆圈里填上合适的数，使每条直线和等于12

734二年级数学：在圆圈里填上合适的数，使每条直线和等于12

我服子佩 2025-02-12 10:49:54

719三年级数学：儿子一看只有一个条件这怎么做？妈妈看了也疑惑

719三年级数学：儿子一看只有一个条件这怎么做？妈妈看了也疑惑

我服子佩 2025-02-11 11:38:48

701小学数学常见陷阱题：能都做对的肯定是学霸中的学霸了

701小学数学常见陷阱题：能都做对的肯定是学霸中的学霸了

我服子佩 2025-02-10 10:13:21

生活不是公式，幸福也没有模板

娱蜀黍ss 2025-02-10 22:01:35

晚上这么晚了，儿子还在跟数学题较劲，真辛苦啊

晚上这么晚了，儿子还在跟数学题较劲，真辛苦啊

公考客栈店小二 2025-02-12 23:51:07

特斯拉自诩，是车辆寿命最长的车？看完这组数据你就懂了！

特斯拉自诩，是车辆寿命最长的车？看完这组数据你就懂了！

搞笑至家 2025-02-11 16:55:30

五年级数学，看似很复杂，整理完等式学生直呼太简单

五年级数学，看似很复杂，整理完等式学生直呼太简单

大力小学数学 2025-02-10 16:40:00

美俄元首通话后欧洲回过味儿了:到头来我们啥也不是

美俄元首通话后欧洲回过味儿了:到头来我们啥也不是

澎湃新闻 2025-02-13 14:13:48

当放寒假的大学生，遇上写数学作业的小学生

当放寒假的大学生，遇上写数学作业的小学生

YK大辽河 2025-02-11 22:18:26

1966年高考题：依据线索猜测出正确城市，让众多参与者绞尽脑汁

1966年高考题：依据线索猜测出正确城市，让众多参与者绞尽脑汁

刘老师数学思维 2025-02-12 10:02:55

如果圆周率有一天被算尽

甜甜科普 2025-02-12 05:45:54

“我劝过梁文锋很多次，DeepSeek要融资”

“我劝过梁文锋很多次，DeepSeek要融资”

华尔街见闻官方 2025-02-13 19:46:41

974亿美元买OpenAI？马斯克方：满足这个条件，将撤回！奥尔特曼：计划与DeepSeek领导层会面

974亿美元买OpenAI？马斯克方：满足这个条件，将撤回！奥尔特曼：计划与DeepSeek领导层会面

每日经济新闻 2025-02-13 19:40:13

关于指数方程的一道数学题目，熟练掌握幂的公式秒解题

关于指数方程的一道数学题目，熟练掌握幂的公式秒解题

三乐大掌柜 2025-02-09 11:36:29

芯片专家归国4年研发50多款尖端芯片：赴美只为学技术

芯片专家归国4年研发50多款尖端芯片：赴美只为学技术

上游新闻 2025-02-12 21:33:43

生育率全球最低背后，韩国人为什么还疯狂“鸡娃”？

生育率全球最低背后，韩国人为什么还疯狂“鸡娃”？

钛媒体APP 2025-02-12 11:40:14

AI女神李飞飞：一个底层移民的逆袭

AI女神李飞飞：一个底层移民的逆袭

最华人 2025-02-12 10:46:43

班主任展示粉笔字，大手一挥行云流水，效果堪称教科书级别！

班主任展示粉笔字，大手一挥行云流水，效果堪称教科书级别！

搞笑的兴兴 2025-02-12 09:22:41

DeepSeek深入教学，教师减少60%重复性工作，精准定位教学痛点

DeepSeek深入教学，教师减少60%重复性工作，精准定位教学痛点

智核驱动者 2025-02-13 19:21:43

问了DeepSeek十个育儿难题，发现它比人更会带娃！99%的父母都做错了

问了DeepSeek十个育儿难题，发现它比人更会带娃！99%的父母都做错了

疫苗小豆苗 2025-02-13 20:38:15

李飞飞巴黎峰会开幕演讲：AI正自我觉醒！马克龙AI换脸现场「整活」

李飞飞巴黎峰会开幕演讲：AI正自我觉醒！马克龙AI换脸现场「整活」

新智元 2025-02-11 19:50:18

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版

机器之心Pro 2025-02-12 17:30:27

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

机器之心Pro 2025-02-13 16:25:29

漫画趣解：一口气搞懂模型蒸馏！

漫画趣解：一口气搞懂模型蒸馏！

AI全球总部 2025-02-13 17:42:29

知名教育品牌优学派全面拥抱DeepSeek，实现AI学习体验新飞跃

知名教育品牌优学派全面拥抱DeepSeek，实现AI学习体验新飞跃

芥末堆看教育 2025-02-13 18:45:49

多模态版DeepSeek来了，北大出品，可用于机器人控制

多模态版DeepSeek来了，北大出品，可用于机器人控制

智东西 2025-02-13 18:58:49

李飞飞空间智能交卷：一张图生成交互3D世界

李飞飞空间智能交卷：一张图生成交互3D世界

量子位 2024-12-03 18:35:35

能买彩票能算命，Deepseek上演“赛博玄学”吸金

能买彩票能算命，Deepseek上演“赛博玄学”吸金

钛媒体APP 2025-02-13 19:17:12

机器人策略学习的Game Changer？伯克利提出Body Transformer

机器人策略学习的Game Changer？伯克利提出Body Transformer

机器之心Pro 2024-08-19 14:32:39

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40