CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

2025-02-12 11:55:47

梦晨发自凹非寺
量子位 | 公众号 QbitAI

倒反天罡了，新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版，7B反超671B。

除此之外，0.5B模型超过GPT-4o，1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview，3B的Llama超过405B的Llama……

这是上海AI Lab/清华哈工大/北邮团队最新研究成果，通讯作者为齐弼卿和周伯文：

重新思考计算最优的Test-Time Scaling（TTS）

团队认为，尽管TTS在提升语言模型推理能力上取得进展，但目前的研究还缺乏对策略模型、过程奖励模型(PRM)和问题难度等因素影响的系统分析。

因此，该研究聚焦两个核心问题：

跨不同策略模型、PRM和问题难度，最优的TTS方式是什么？
TTS能在多大程度上提升语言模型在复杂任务上的表现？小模型能否超越大模型？

重新思考Test-Time Scaling

为探究这些问题，团队在MATH-500和AIME24数学推理数据集上，使用多个不同规模的策略模型和PRM，进行了全面的实验评估。

他们将推理问题建模为马尔可夫决策过程，定义了状态空间、动作空间、转移函数、奖励函数和折扣因子等元素。

对于TTS，考虑了Best-of-N、Beam Search和Diverse Verifier Tree Search（DVTS）三种方法。

实验发现，最优的TTS方法高度依赖于具体的策略模型、过程奖励模型（PRM）和问题难度。

对于小型策略模型，基于搜索的方法优于BoN，而对于大型策略模型相反。

团队认为之所以出现这种差异，是因为较大的模型具有更强的推理能力，并且不需要验证器来执行逐步选择。相比之下，较小的模型依靠验证器来选择每个步骤，确保每个中间步骤的正确性。

对于过程奖励模型，对Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM时效果拔群，在MATH-500数据集上搜索方法的性能随计算预算增加显著提升。

而使用Math-Shepherd和RLHFlow的PRMs时效果不佳甚至不如多数投票。

对于问题难度，参数少于7B的小型策略模型，BoN更适合于简单的问题，而Beam Search更适合于更难的问题。

参数在7B-32B的策略模型，DVTS在简单和中等问题上表现良好，而Beam Search对于困难问题更有效。

另外在72B参数的策略模型上，BoN是所有难度级别的最佳方法。

因此，团队提出了一个更通用的奖励感知型最优计算TTS框架，确保TTS计算能适应特定的策略模型、提示和奖励函数。

利用奖励感知型最优TTS框架，在MATH-500和AIME24上取得了如下结果：

3B的Llama3.2超越135倍大的Llama3.1-405B，与之前的TTS研究（超越23倍大的模型）相比，改善了487%。

DeepSeek-R1-Distill-Qwen-7B超过了OpenAI-o1（参数量未知）和DeepSeek-R1（671B）。

甚至0.5B和1.5B的小模型也展现出了与GPT-4o、o1-preview等专门的推理模型媲美的表现。

研究还比较了最优TTS和目前流行的基于长CoT的方法。

结果表明，TTS在MATH-500和AIME2024上优于多数长CoT方法。

然而，虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B，但在AIME24上却显示出显著的下降。
这说明TTS在相对简单任务上优势明显，但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型，还有提升空间。

最后，团队提出研究真正的 “从弱到强” 方法而不是当前 “从强到弱” 的策略优化监督机制的重要性。

未来的工作应侧重于开发更具适应性和通用性的监督机制，以提高小语言模型在复杂任务上的性能，并为开发有效的推理策略提供新方法。

目前的工作对数学任务上的TTS做了全面评估，但仍有一些局限性和未来方向需要探索：比如将TTS扩展到更多任务，例如代码和化学，以及探索更高效的计算最优TTS方法。

论文地址：
https://arxiv.org/abs/2502.06703

中国最具特色的6大城市，北京“强”，上海“富”，成都“慢”

中国最具特色的6大城市，北京“强”，上海“富”，成都“慢”

我不是博士 2025-02-09 19:50:09

上海喝茶外卖工作室徽▼❷❷❹❹❼⓿❷❼▼

上海喝茶外卖工作室徽▼❷❷❹❹❼⓿❷❼▼

韵太生活 2025-02-08 12:52:37

上海的护理人员工资高，但是素质有待提高，有的护理人员还很懒？

上海的护理人员工资高，但是素质有待提高，有的护理人员还很懒？

杰森纪实 2025-02-09 21:20:53

上海一男子酒后叫了代驾，途中被警察拦下，车门一开发现蹊跷

上海一男子酒后叫了代驾，途中被警察拦下，车门一开发现蹊跷

五岳论兵锋 2025-02-10 13:45:57

这就是大上海的富人吧！难怪说大城市就是机会多！网友：快打开看看是不是优惠券

这就是大上海的富人吧！难怪说大城市就是机会多！网友：快打开看看是不是优惠券

城市大眼睛 2025-02-11 11:38:43

街霸2:第一拳王大战上海至尊白

街霸2:第一拳王大战上海至尊白

铁蛋儿解说 2025-02-10 13:40:30

Youtube外国网友对比中国上海和美国纽约：上海是26世纪的城市！

Youtube外国网友对比中国上海和美国纽约：上海是26世纪的城市！

湘西思思 2025-02-10 14:42:12

欧洲小哥初到上海就喜欢上了。印度网友：你应该来印度看看！

欧洲小哥初到上海就喜欢上了。印度网友：你应该来印度看看！

川老师 2025-02-10 14:38:21

30岁小伙来上海相亲角，相亲角阿姨的夸得不停

30岁小伙来上海相亲角，相亲角阿姨的夸得不停

重庆聚焦站 2025-02-10 17:43:00

印度人飘了，印度网民评论上海VS孟买视频竟然自大道：孟买更好

印度人飘了，印度网民评论上海VS孟买视频竟然自大道：孟买更好

农村娃李子远 2025-02-12 11:58:15

免费！满血版DeepSeek丝滑畅玩，低门槛实现671B-R1/V3自由

免费！满血版DeepSeek丝滑畅玩，低门槛实现671B-R1/V3自由

量子位 2025-02-12 12:47:30

“很恐慌”！很多上海人遇到过……最新：本市正式实施

“很恐慌”！很多上海人遇到过……最新：本市正式实施

看看新闻Knews 2025-02-12 14:42:11

上海古井发出“怪声”，考古队清理了6年，居然发现地下宫殿！

上海古井发出“怪声”，考古队清理了6年，居然发现地下宫殿！

随我看奇闻世界 2025-02-12 07:33:38

CBA俱乐部杯四强出炉：新疆对阵山西，北京对阵上海！

CBA俱乐部杯四强出炉：新疆对阵山西，北京对阵上海！

大昆说台球 2025-02-11 00:40:55

假如哪吒来上海度假，你最推荐的打卡地是哪里？

假如哪吒来上海度假，你最推荐的打卡地是哪里？

东方卫视 2025-02-12 09:06:12

润和软件：公司目前与DeepSeek暂无业务合作关系

润和软件：公司目前与DeepSeek暂无业务合作关系

每日经济新闻 2025-02-12 12:16:14

定了！“哈利·波特”落户上海锦江乐园，占地超5万平方米，预计2027年开门迎客

定了！“哈利·波特”落户上海锦江乐园，占地超5万平方米，预计2027年开门迎客

每日经济新闻 2025-02-12 10:20:12

澳大利亚“吃货”从印度辗转来到上海，由衷感叹：终于来对地方了

澳大利亚“吃货”从印度辗转来到上海，由衷感叹：终于来对地方了

小青幸福生活 2025-02-10 15:35:20

忙完啦，准备换个地方了上海

斑斓的颜色 2025-02-11 17:03:19

特朗普与石破茂会晤，强调继续推动安全领域“多边机制”有何用意

特朗普与石破茂会晤，强调继续推动安全领域“多边机制”有何用意

李莉说 2025-02-11 12:19:09

上海初中数学竞赛题，求a-b的最大值

上海初中数学竞赛题，求a-b的最大值

三乐大掌柜 2025-02-09 11:36:13

2分钟了解一下上海，上海到底是一座，什么样的城市呢

2分钟了解一下上海，上海到底是一座，什么样的城市呢

弋说倾城 2025-02-11 07:56:25

孩子玩到停不下来的宝藏学习神器，超全玩法攻略来啦

孩子玩到停不下来的宝藏学习神器，超全玩法攻略来啦

萌芽研究所BUD 2025-02-11 20:42:50

美国人为证明中国手机支付，故意不带现金到上海，有好戏看了

美国人为证明中国手机支付，故意不带现金到上海，有好戏看了

小梁探史 2025-02-12 07:56:34

今日上海天气：5℃-9℃，多云转阴天，保暖不能松懈

今日上海天气：5℃-9℃，多云转阴天，保暖不能松懈

上观新闻 2025-02-10 06:17:20

今日上海天气：冻麻了？回暖了！7°C-13°C，多云转小雨

今日上海天气：冻麻了？回暖了！7°C-13°C，多云转小雨

上观新闻 2025-02-11 00:01:57

印度旅游博主第一次到上海：中国看起来比大多数西方国家更发达！

印度旅游博主第一次到上海：中国看起来比大多数西方国家更发达！

杨二娃与栽舅子 2025-02-12 10:35:59

上海世纪公园上海内环线中心区域最大的生态型城市公园

上海世纪公园上海内环线中心区域最大的生态型城市公园

魅力汉川 2025-02-10 21:14:55

上海的观众从来没中过奖，还以为是骗局

上海的观众从来没中过奖，还以为是骗局

江西都市现场 2025-02-12 13:13:34

同级唯一DeepSeek加持，奔腾小马2款新车型智趣上市

同级唯一DeepSeek加持，奔腾小马2款新车型智趣上市

汽车投诉网 2025-02-12 14:38:17

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

新智元 2025-02-12 12:47:41

DeepSeek被曝估值1500亿达OpenAI一半？巴黎地铁70岁老人都在聊！

DeepSeek被曝估值1500亿达OpenAI一半？巴黎地铁70岁老人都在聊！

新智元 2025-02-12 12:49:17

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

量子位 2025-02-11 17:02:35

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

新智元 2025-02-02 12:33:58

8卡32B模型超越o1预览版、DeepSeek V3等提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3等提出层次化RL推理新范式

机器之心Pro 2025-02-12 11:21:55

Meta视频AI王者登场，打爆Sora！体操运动终于不再鬼畜

Meta视频AI王者登场，打爆Sora！体操运动终于不再鬼畜

新智元 2025-02-12 12:47:49

AI飞速发展，人们还有工作吗？这是Altman的回答

AI飞速发展，人们还有工作吗？这是Altman的回答

华尔街见闻官方 2025-02-12 14:24:11

10万颗先进AI芯片，撬动1.5万亿，欧盟官宣AI超级工厂计划

10万颗先进AI芯片，撬动1.5万亿，欧盟官宣AI超级工厂计划

智东西 2025-02-12 14:21:14

Wiz公布2025AI安全现状：DeepSeek采用激增催化自托管AI，但数据安全风险令人担忧 | 企服国际观察

Wiz公布2025AI安全现状：DeepSeek采用激增催化自托管AI，但数据安全风险令人担忧 | 企服国际观察

钛媒体APP 2025-02-12 13:38:10