CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

新研究揭示DeepSeek弱点：频繁切换思路欠思考，最短答案往往就对

2025-02-03 12:00:03

梦晨西风发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek和o1/o3一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。

最新研究揭示：

在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败——这种现象被研究者称为Underthinking（欠思考）。

研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

通过分析AI的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个tokens对解题毫无贡献。

这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析，团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上，对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看，类o1模型在错误回答中比正确回答多消耗了225%的token，原因是思维切换频率增加了418%。

为了深入分析这一现象，研究团队开发了一套评估框架，用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到，许多模型在回答开头阶段的思路是正确的，但并未继续深入完成推理。

超过70%的错误回答中至少包含一个正确的思路。此外，在超过50%的错误回答中，有10%以上的思路是正确的。

如下图所示的例子，例如，Thought 1通过识别给定方程类似于以(0,0)和(20,11)为中心的椭圆方程，启动了正确的解释。将两个表达式设为相等，是寻找满足这两个方程的公共点(x, y)的有效方法。

然而，模型并未专注于深入探索这一合理思路，使用进一步的代数操作和优化技术进行分析，而是频繁切换思路，额外消耗了约7270个token，却依然未能得出正确答案。

最终，它得出一个缺乏扩展COT过程支持的猜测答案。

基于这些观察，研究人员提出了一个用于量化Underthinking程度的指标（Underthinking Metric）。

这个指标通过测量错误答案中的token使用效率来评估推理效率，计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。

实验结果表明，所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在MATH500-Hard和GPQA Diamond数据集上，性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时，其UT得分也更高，表明错误回答中存在更多思维不足。

这意味着，尽管模型整体能力更强，但在不确定时可能生成更长但效率较低的推理过程，可能是因为模型探索了多个错误的推理路径，却未能有效收敛到正确解答。

相反，在AIME2024测试集中，DeepSeek-R1-671B模型不仅取得了更高的准确率，还表现出较低的UT得分，反映出较少的思维不足和更高的token效率。

这表明模型在该任务中，即使未得出正确答案，其推理过程依然保持专注和高效，团队表示这可能是因为模型与 AIME2024所要求的问题类型和推理过程更好地对齐。

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让AI学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”？

研究者借鉴了人类考试策略，提出了一种“思路切换惩罚机制”（Thought Switching Penalty，TIP）。

其原理类似于考试时给自己定规矩：“先专注当前方法，至少尝试10分钟再换思路”。

技术细节上，TIP会对触发思路切换的关键词施加惩罚，降低这些词在解码过程中的生成概率，迫使模型在当前路径上探索更久。

例如，当模型开始写“Alternatively, we can consider…”时，TIP会通过调整参数（惩罚强度α和持续时间β），抑制这种过早的切换倾向。

实验结果显示，加入TIP能让模型在数学测试上的准确率上升，同时UT Score下降，说明既减少了无效切换，又提高了答案质量。

例如在AIME2024数学竞赛测试上，加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%，同时UT Score从72.4降至68.2。

并且这种“无痛升级”无需重新训练模型，仅需调整解码策略，展现了其实用价值。

One More Thing

UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察，

对于DeepSeek-R1和所有推理模型，错误的答案更长，而正确的答案要短得多。

基于此，他们提出一个简单的解决办法，称为“简洁解码”（Laconic decoding）。

并行运行5次模型，从答案中选择tokens最少的。

初步实验结果表示，简洁解码在AIME2024测试上能提高6%-7%的准确率，比Consensus Decoding更好也更快。

论文地址：https://arxiv.org/abs/2501.18585

参考链接：
[1]https://x.com/tuzhaopeng/status/1885179412163027406
[2]https://x.com/AlexGDimakis/status/1885447830120362099

特朗普和黄仁勋首次会面，谈到DeepSeek

特朗普和黄仁勋首次会面，谈到DeepSeek

大都地理 2025-02-02 08:40:50

牛弹琴：一场史诗级贸易战就此开打中美展开直接较量

牛弹琴：一场史诗级贸易战就此开打中美展开直接较量

现代快报 2025-02-03 09:11:26

斯坦福揭秘o1-preview软肋！数学竞赛题稍作修改，准确率骤降30%

斯坦福揭秘o1-preview软肋！数学竞赛题稍作修改，准确率骤降30%

新智元 2025-01-31 13:25:49

吸渣体质的人，注定无法识别爱情，有一种心理机制叫“内摄”

吸渣体质的人，注定无法识别爱情，有一种心理机制叫“内摄”

心海鱼乐 2025-02-02 19:35:26

埋头苦练没O用，8个字告诉你增肌的底层机制

埋头苦练没O用，8个字告诉你增肌的底层机制

FE索索队长 2025-02-02 08:14:52

百度智能云宣布上线DeepSeek-R1/V3

百度智能云宣布上线DeepSeek-R1/V3

每日经济新闻 2025-02-03 19:32:18

小女孩看电影时放声大笑，旁边男孩不满称“有病吧”！

小女孩看电影时放声大笑，旁边男孩不满称“有病吧”！

众横四海 2025-02-03 11:34:45

2月2日欧洲大事，德国政策变化，谈判策略

2月2日欧洲大事，德国政策变化，谈判策略

管理专家李江涛 2025-02-03 11:40:05

二战期间德军在莫斯科成片冻死，为什么不烧树？苏联人策略很厉害

二战期间德军在莫斯科成片冻死，为什么不烧树？苏联人策略很厉害

冰封文史 2025-02-02 10:21:00

囧叔谈DeepSeek和民主党：特朗普是法西斯主义者的指责

囧叔谈DeepSeek和民主党：特朗普是法西斯主义者的指责

TalkshowCenter 2025-02-03 10:19:33

张雪峰“饭碗不保”？DeepSeek轻易给出十大热门专业，家长顿悟了

张雪峰“饭碗不保”？DeepSeek轻易给出十大热门专业，家长顿悟了

妍妍教育日记 2025-02-03 21:23:43

伊尔76与运20参数对比：深入剖析两款运输机的性能差异

伊尔76与运20参数对比：深入剖析两款运输机的性能差异

猪猪爱影视 2025-02-03 04:47:16

不愧是刘罗锅，推理真仔细

老六剪辑 2025-02-03 14:56:35

省教育厅公示：拟新增 29 个专业

省教育厅公示：拟新增 29 个专业

生物学霸 2025-02-02 14:06:00

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

Science 子刊：你肚子上长的每一斤肉，都在让你的大脑慢慢变小

Science 子刊：你肚子上长的每一斤肉，都在让你的大脑慢慢变小

生物学霸 2025-02-01 17:34:37

DeepSeek锐评：我自己！

DeepSeek锐评：我自己！

迷影映画 2025-02-03 21:19:49

春节时光刻度里的坚守

新华社 2025-02-02 18:51:05

一些作家每天笔耕不辍

创意写作坊 2025-02-03 19:09:03

美女公路上骑马，竟然直接切换到自动挡，美女的反应亮了

美女公路上骑马，竟然直接切换到自动挡，美女的反应亮了

乘驾谭笑 2025-02-01 14:47:00

徐志胜两幅面孔切换自如？打工人的小心思还是被志胜玩明白了

徐志胜两幅面孔切换自如？打工人的小心思还是被志胜玩明白了

山东卫视 2025-01-31 18:28:39

爬泰山开“外挂”？游客：像有人拉着我上山，网友：能登“珠峰”吗

爬泰山开“外挂”？游客：像有人拉着我上山，网友：能登“珠峰”吗

环球网资讯 2025-02-01 13:13:10

宋晓峰随赵本山到美国演出现场吟诗一首观众哈哈大笑

宋晓峰随赵本山到美国演出现场吟诗一首观众哈哈大笑

征垣之路 2025-02-03 00:30:58

小汽车应急车道超车遭阻拦甩头撞向小车强硬加塞

小汽车应急车道超车遭阻拦甩头撞向小车强硬加塞

征垣之路 2025-02-03 21:24:47

御姐和甜妹中切换

新车说道 2025-02-03 07:32:04

DeepSeek点评英文经济学顶刊，犀利独特毒辣

DeepSeek点评英文经济学顶刊，犀利独特毒辣

TOP大学来了 2025-02-01 19:03:17

如何判断发动机好坏？老司机直言：外行人看参数，内行人看排气管

如何判断发动机好坏？老司机直言：外行人看参数，内行人看排气管

啊战侃车 2025-01-30 21:44:24

DeepSeek创始人家乡“火”了！大量游客前往打卡

DeepSeek创始人家乡“火”了！大量游客前往打卡

小南看城市 2025-02-03 23:12:15

仅用8小时，用Vim编辑器手搓BadApple火了！

仅用8小时，用Vim编辑器手搓BadApple火了！

量子位 2025-01-16 21:25:43

《文明7》媒体评测解禁：M站均分82 IGN7分

《文明7》媒体评测解禁：M站均分82 IGN7分

游民星空 2025-02-03 23:08:24

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

聊天机器人有时候会“胡说八道”，GPT等模型的“幻觉率”有多高？

聊天机器人有时候会“胡说八道”，GPT等模型的“幻觉率”有多高？

医咖会 2025-02-02 19:05:14

第二波AI编程浪潮已经到来

DeepTech深科技 2025-02-02 16:47:28

一拖一拽，小猫活了！Netflix等新作爆火，噪声扭曲算法让运动控制更简单

一拖一拽，小猫活了！Netflix等新作爆火，噪声扭曲算法让运动控制更简单

新智元 2025-02-03 10:48:28

春晚上的“赛博秧歌”火了！外国网友：肯定还有别的“绝活”

春晚上的“赛博秧歌”火了！外国网友：肯定还有别的“绝活”

上观新闻 2025-02-03 09:01:15

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律通关密码

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律通关密码

机器之心Pro 2025-02-02 15:47:20

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

机器之心Pro 2025-02-01 15:01:13

为什么大语言模型没能“杀死”心理学？

为什么大语言模型没能“杀死”心理学？

钛媒体APP 2024-11-20 19:31:11

英伟达受到挑战，但不会继续跌；AI将会有更广泛应用

英伟达受到挑战，但不会继续跌；AI将会有更广泛应用

DeepTech深科技 2025-02-03 19:07:10

SB OpenAI Japan成立！2025年首个最火AI赛道开打

SB OpenAI Japan成立！2025年首个最火AI赛道开打

智东西 2025-02-03 23:52:27