CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

2025-03-29 15:34:52

新智元报道

编辑：定慧

【新智元导读】AI频频刷新基准测试纪录，却算不清「strawberry」里到底有几个字母r，在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起，例如由一名高中生开发的MC-Bench，用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式，或许更贴合人类对AI直观、创造性能力的实际期待。

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？

对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。

比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。

但是对于人类来说依靠直觉和下意识就能回答的问题，LLM们似乎集体有点「发懵」。

很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩，但却无法数清楚「strawberry」中有多少r。

除了复杂的基准测试，另外一种评价模型好坏的方式就是「竞技场模式」。

比如可以在Chatbot Arena进行上提问投票，选出面对相同问题时的「最佳模型」。

但是这种依靠Chat模式的评测依然不太直观，于是各种各样的创意评测就诞生了。

创意评测的魅力

Minecraft Benchmark（或 MC-Bench）像一个竞技场，在一对一的挑战中针对相同提示生成Minecraft作品。

「对决双方」由用户投票选择哪个模型做得更好。

并且只有在投票后才能看到每个Minecraft建筑是由哪个AI制作的。

目前MC-Bench的榜单上，Claude3.7暂时领先，deepseek-r1位列第5，但是考虑到DeepSeek-R1的发布时间，Claude3.7、GPT-4.5和Gemini2.0都相当于是「新一代」的模型了，期待DeepSeek-R2出来后的榜单！

像MC-Bench这样的创意评测，优势非常明显：普通人也能轻松参与，像「选美」一样简单直接。

创造MC-Bench项目的仅仅是一名高中生Adi Singh，在将Minecraft用于AI评测这件事情上，Adi Singh觉得Minecraft的价值不在游戏本身。

而是作为有史以来最畅销的电子游戏，即使对于没玩过Minecraft游戏的人来说，仍然可以选择自己更喜欢的「方块样子」。

MC-Bench是合作开发的，除了Adi Singh外，贡献者还有7位，包括了「提示词创意官」、技术主管和开发者们。

并获得了Anthropic、Google和阿里巴巴等公司的技术支持。

传统LLM评测：严肃认真但未必管用

传统的AI基准测试技术被证明不足，主要体现在以下几个方面：

主场优势 (Overfitting to benchmarks)：传统的 AI 基准测试往往基于特定类型的任务设计，这些任务对 AI 模型来说相对固定且简单，这种过拟合就像一名「只会背题」的学生。
测试任务过于狭窄：传统的测试任务多集中于单一维度的能力评估，如语言理解、逻辑推理、数学计算。
缺乏真实环境与开放性：传统的基准测试通常使用高度抽象化或理论化的环境，而这些环境往往不能反映现实世界中问题的开放性和不确定性。
难以衡量通用性与泛化能力：传统 AI 基准测试往往无法有效衡量模型的通用性或泛化能力。

因此AI构建者正在转向更有创意的方法来评估Gen-AI模型的能力。

AI开发者们表示，我们也想玩点「新鲜的」。

MC-Bench的本质是在测试AI模型的文本理解和编码能力。

通过类似Chatbot Arena的方式来进行模型评比。

对于为何选择游戏，选择Minecraft，Adi Singh觉得「游戏可能只是一种测试能动性推理的媒介，比现实生活更安全，也更适合测试目的，因此在我看来更为理想」。

从Adi Singh个人网站来看，他对于使用Minecraft方块进行AI评测应该是「蓄谋已久」，Adi Singh展示很多利用大模型生成Minecraft方块的精彩案例。

比如，gpt-4.5根据提示「构建一艘在云层中飞行的蒸汽朋克风格飞艇」。

再比如，claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型，根据提示「韩国友谊之钟」生成。

并且，社区成员对MC-Bench的评价也很高。

比如目前就职于OpenAI的基础研究员Aidan McLaughlin，对Minecraft Bench给予了很高的评价：你应该密切关注MC-Bench！

Aid an McLaughlin同时给出了他认为最佳的人工智能基准应具有：

审计数据的乐趣（与其他所有基准测试都不同）
测试真正关心的功能（代码、美学、意识）
甚至可以辨别顶级型号之间的性能差异

游戏测评AI似乎依然是「主流创意」

在Claude 3.7 Sonnet发布时说过，模型降低了在数学、竞赛和编程方面的特化程度，有「更好」的思考能力。

那么如何评测新模型的「思考」能力呢？

答案就是游戏《宝可梦》，这不是开玩笑。

Claude通过配备了透过程序来操控游戏的特定「按钮」。

甚至还在Twitch上直播了Claude玩游戏的全过程，可以看到它如何学习、思考并采取行动。

不论是传统的基准测试，还是类似MC-Bench的创意测试。

对于生成式AI的能力评测，目前依然没有一个「一劳永逸」的标准。

传统基准测试的评估结果多采用单一的客观分数（如准确率），忽视了人类实际感受和主观评价的维度。

在生成式AI中，美学感知、创造力、直观性往往更加重要，但这些因素很难在传统的标准化测试中体现出来。

也许类似MC-Bench这样的创意评测会给未来的AI评测带来新的「范式」。

而新的AI评测「范式」也许会加速推动AI的发展。

参考资料：

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

洗澡很重要哦？！

宝藏风爷 2025-03-30 00:02:36

为了拯救自己的最爱！

糖宝影视w 2025-03-30 00:03:04

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

机器之心Pro 2025-02-18 14:02:59

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

机器之心Pro 2025-03-31 14:51:01

朱啸虎再放炮：所有AI应用都是套壳，说有壁垒是忽悠人！DeepSeek出来后，中国软件企业的春天可能要来了

朱啸虎再放炮：所有AI应用都是套壳，说有壁垒是忽悠人！DeepSeek出来后，中国软件企业的春天可能要来了

每日经济新闻 2025-03-31 21:48:11

淘宝愚人节推出2035热搜榜，定向记忆删除、全球情侣基因筛选服务上榜

淘宝愚人节推出2035热搜榜，定向记忆删除、全球情侣基因筛选服务上榜

武汉广播电视台 2025-03-31 15:38:31

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

机器之心Pro 2024-11-14 17:08:05

2025年图灵奖：强化学习的前世今生

2025年图灵奖：强化学习的前世今生

经济观察报 2025-03-31 21:29:07

多团队联合揭示“灾难性过度训练”现象，模型扩展需被重新审视

多团队联合揭示“灾难性过度训练”现象，模型扩展需被重新审视

DeepTech深科技 2025-03-31 22:29:03

万亿巨头跻身AI智能体赛道！亚马逊推出Nova Act

万亿巨头跻身AI智能体赛道！亚马逊推出Nova Act

财联社 2025-03-31 23:40:51

AI陪伴：谁在赛博世界里吹起了粉色泡泡？

AI陪伴：谁在赛博世界里吹起了粉色泡泡？

虎嗅APP 2024-11-18 12:16:17

对话型Chatbot难形成高客单价，高附加值是未来关键

对话型Chatbot难形成高客单价，高附加值是未来关键

量子位 2024-12-31 10:52:03

马斯克押注，黄仁勋上桌，比智能手机更大的市场来了！

马斯克押注，黄仁勋上桌，比智能手机更大的市场来了！

互联网思维 2025-03-31 23:56:19

爸爸妈妈玩游戏，宝宝看到爸爸妈妈被打的不同反应，网友：果然是妈妈的皮夹克

爸爸妈妈玩游戏，宝宝看到爸爸妈妈被打的不同反应，网友：果然是妈妈的皮夹克

快乐车生活1 2025-03-29 17:50:21

女子偶然发现养的猪能听懂指令，玩123木头人游戏，乖乖静止不动

女子偶然发现养的猪能听懂指令，玩123木头人游戏，乖乖静止不动

星视频 2025-03-30 10:34:05

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输中间步骤

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输中间步骤

量子位 2025-03-29 13:29:57

红警俩敌人都在玩花式!花着花着全都没了!

红警俩敌人都在玩花式!花着花着全都没了!

涩会小阿敏 2025-03-30 09:30:37

玩游戏碰到的不同头像实力如何

老宫小菜谱 2025-03-31 23:34:10

红警就一个航母到处传送!敌人只给我打99分!

红警就一个航母到处传送!敌人只给我打99分!

涩会小阿敏 2025-03-31 08:16:30

主人和兔子玩拔萝卜游戏一个不停的拔一个不停的塞网友：看得出来双方都很犟

主人和兔子玩拔萝卜游戏一个不停的拔一个不停的塞网友：看得出来双方都很犟

焦点视讯 2025-03-29 12:13:55

公司团建集体做游戏，猜猜发明这种游戏的，到底是哪位老总

公司团建集体做游戏，猜猜发明这种游戏的，到底是哪位老总

闹心观点 2025-03-31 15:15:24

《BLEACH 魂魄觉醒》评测7.8分：满足死神粉的期待，但萌新慎入

《BLEACH 魂魄觉醒》评测7.8分：满足死神粉的期待，但萌新慎入

梦电大表哥 2025-03-31 17:26:28

红警房主要帮我戒了游戏？那我就给你吃闪电风暴了！

红警房主要帮我戒了游戏？那我就给你吃闪电风暴了！

08说红警 2025-03-29 08:10:49

#王伟烈士墓前又放满战机模型

东方卫视 2025-03-30 11:34:08

斗地主：天王级名震江湖翻盘局！掘开摄像头前发怒

斗地主：天王级名震江湖翻盘局！掘开摄像头前发怒

涩会小阿敏 2025-03-28 10:04:59

12年在出租屋里，玩这款游戏印象很深刻，机关枪最简单原理

12年在出租屋里，玩这款游戏印象很深刻，机关枪最简单原理

青观察 2025-03-31 16:49:52

评测：大众ID.3终端10万多起，用了一年的新车能卖多少钱？

评测：大众ID.3终端10万多起，用了一年的新车能卖多少钱？

车毂轆 2025-03-29 08:00:00

夫妻两个玩游戏，结局老公很激动，现实确实妻子赢了

夫妻两个玩游戏，结局老公很激动，现实确实妻子赢了

肥熊爱搞笑 2025-03-29 15:42:34

最牛的单三诛心！七亿七当仁不让！

最牛的单三诛心！七亿七当仁不让！

涩会小阿敏 2025-03-30 09:15:30

谁能告诉我这是怎么把铁轨放到墙上的？！

谁能告诉我这是怎么把铁轨放到墙上的？！

娃娃妈妈爱下厨 2025-03-31 12:19:05

僵尸病毒计划第七期：成功解救被困队友！

僵尸病毒计划第七期：成功解救被困队友！

解说CH酷凡 2025-03-28 14:27:26

僵尸病毒计划第八期：去拯救被困的幸存人类！

僵尸病毒计划第八期：去拯救被困的幸存人类！

解说CH酷凡 2025-03-29 13:00:55

僵尸病毒计划第九期：探索码头与集装箱！

僵尸病毒计划第九期：探索码头与集装箱！

解说CH酷凡 2025-03-30 14:33:33

我的世界潮涌核心怎么用？一个视频教会你！冷知识

我的世界潮涌核心怎么用？一个视频教会你！冷知识

麦块老陈 2025-03-28 22:11:01

僵尸病毒计划第六期：前往危机四伏的下水道！

僵尸病毒计划第六期：前往危机四伏的下水道！

解说CH酷凡 2025-03-27 15:34:55

僵尸病毒计划第十期：获得直升飞机钥匙！

僵尸病毒计划第十期：获得直升飞机钥匙！

解说CH酷凡 2025-03-31 15:03:44

迷你世界：诡异的三层楼，晚上会出现第四层，玩家进去就会消失

迷你世界：诡异的三层楼，晚上会出现第四层，玩家进去就会消失

天天村长 2025-03-31 21:43:27

我的世界：勇者奇遇记！无限钻石甲

我的世界：勇者奇遇记！无限钻石甲

小三303 2025-03-31 16:02:18

原神：当我的世界紫色才是最尊贵的，隐藏在黑暗的力量

原神：当我的世界紫色才是最尊贵的，隐藏在黑暗的力量

魔王Himv 2025-03-30 08:02:13