CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

2025-03-03 13:17:27

新智元报道

编辑：编辑部 HYj

【新智元导读】Karpathy发出灵魂拷问，评估AI究竟该看哪些指标？答案或许就藏在经典游戏里！最近，加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体，Claude 3.7结果令人瞠目结舌。

LLM评估基准的「黄金标准」，正在失效？

一大早，AI大神Karpathy发出质疑，「目前存在一种评估危机，我真的不知道现在该看哪些指标了」。

诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准，各有自己的优劣之处。

如果这些都不够，那么游戏算不算？

毕竟，曾经红极一时的AlphaGo是围棋界的头号AI；就连OpenAI也早年涉足游戏领域，拿着自研AI在DOTA国际赛中取得亮眼的成绩。

最近，Claude 3.7的出世，让「宝可梦」一时间成为LLM评判的新标杆。

UCSD Hao AI Lab再次出手，开源了一种全新的「游戏智能体」，能够实时让计算机使用智能体（CUA）运行解谜、益智等类型的游戏。

结果显示，Claude 3.7 Sonnet玩超级马里奥足足撑满90s，直接碾压了OpenAI、Gemini和自家前辈；而GPT-4o一上来就直接挂掉了……

谷歌选手Gemini 1.5 Pro首战即败，而且非常有规律地两步一跳。到了Gemini 2.0虽多走了几步，最终还是栽坑。

GamingAgent项目代码已开源，下载安装即可观战AI游戏大PK。

开源地址：https://github.com/lmgame-org/GamingAgent

「游戏智能体」演示demo

GPT-4.5反应迟钝，GPT-4o永远被第一个小怪杀死

GPT-4o总是被第一个小怪杀死，像极了操作很烂会被队友喷的游戏菜鸡。

短短20s，游戏就结束了。

相比之下，GPT-4.5的表现就好多了，起码没卡在第一个小怪。

但它的反应还是很迟缓，几乎是两步一停。

跳过一个矮水管之前，也要犹豫片刻，感觉像是刚学会了游戏操作，还在蹒跚学步。

一个稍高点的水管，尝试了7次，足足花了10s才跳了过去。

好不容易跳了过去，就撞到小怪死掉了。第一回合就这样告终了。

更好笑的是，第二回合的时候，GPT-4.5又栽倒在了第一个小怪那里。毕竟和GPT-4o同属于OpenAI家族，操作都比较菜（bushi）。

第三回合表现也比较一般，还不如第一回合。第一个矮水管就卡了半天，搁水管底下卡了快10s才想起来跳。

最后虽然丝滑地跳过了第二个水管，但还是被小怪杀死了，还没有第一回合走得远。第一回合起码跳过了第三个水管，虽说刚跳过就被杀了。

GPT-4.5完整视频

Gemini 1.5两步一跳，2.0栽进坑里

到了谷歌这边，Gemini 1.5 Pro首战也不如意，没能逃过第一个小怪的魔爪。

第二回合Gemini 1.5算是躲过了第一个小怪，甚至还碰到了问号箱，吃到了蘑菇。

有趣的是，和GPT-4.5两步一停不同，Gemini 1.5是「两步一跳」。

走了这么一小段路，一共就跳了9回。地板上也跳一跳，水管上也跳一跳。

最后也是跳过了第三根水管，甚至差点跳过了第四个，算是走得比GPT-4.5要远。

至于更新的Gemini 2.0 Flash，表现上不出意外地要好得多。

首先，跳得更大胆；其次，跳得也更流畅。

跳到了「前人」未曾涉足的更高的平台上，而且10s就轻松跳过了前面三个水管。

虽然第二回合的时候也惨遭第一个小怪的毒手。

但最后走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管，栽倒在了一个没能跳过去的坑中。

Gemini 2.0 Flash完整视频

Claude 3.7 Sonnet发现隐藏奖励

相比之下，Anthropic的Claude，就要惊艳多了。

相比于Gemini两步一跳的操作，Claude 3.7的操作更加丝滑，走得也远很多。

尤其是在跳跃的时机上，显得更有章法，碰到水管、碰到坑才会跳。

此外，还会有意识地通过跳跃来躲避小怪。

跳过了Gemini 2.0 Flash两回合都没跳过去的坑，Claude操作下的马里奥终于是吃到了金币；终于是碰到了除了哥布林（形似蘑菇）之外的小怪——库巴（形似乌龟）；甚至还碰出了隐藏奖励——超级星星。

最后是掉到了阶梯平台之间的坑里，结束了游戏。

AI大战2048益智游戏，GPT-4o拿不出手

接下来，再看一个益智类的游戏2048。

可能很多人对这款游戏并不熟悉，规则是通过滑动进行拼图，玩家将带有相同数字的方块合并，达到可能最高的数值。

GPT-4o在挑战过程中，因为思考过久，陷入困境。

而Claude 3.7虽多走了几步，比GPT-4o强不少，但最终还是以失败告终。

俄罗斯方块，智商在线

那么Claude 3.7玩俄罗斯方块的表现，又如何呢？

Anthropic开发者关系负责人Alex Albert称赞道，「非常酷！我们需要把每一款电子游戏都变成一种评估工具」。

已经有网友在评论区许愿，让Grok 3加入战场。

看来，LLM评估即将开辟一条全新的路。

参考资料：

https://x.com/haoailab/status/1895557913621795076

https://x.com/haoailab/status/1895605453461340472

https://lmgame.org/#/aboutus

逍遥开播谈输比赛原因

涩会小阿敏 2025-03-01 11:50:57

老爸出游戏难题，本以为稳操胜券，却被闺女一招KO

老爸出游戏难题，本以为稳操胜券，却被闺女一招KO

祝晓晗 2025-03-01 09:00:00

想打就直说，还玩啥游戏嘛

小芳影视剪辑 2025-03-02 11:38:28

一家四口做游戏，儿媳咋都打不到丈夫，婆婆直接出手教训！

一家四口做游戏，儿媳咋都打不到丈夫，婆婆直接出手教训！

爆笑怪小咖 2025-03-03 08:39:53

孙颖莎和队友玩游戏，着急的小豆包好可爱！

孙颖莎和队友玩游戏，着急的小豆包好可爱！

陈珅侃故事 2025-03-03 15:05:50

夫妻俩玩游戏，大哥出手是真狠，美女妻子当场报仇！

夫妻俩玩游戏，大哥出手是真狠，美女妻子当场报仇！

生活有撩 2025-03-03 08:05:37

谁发明的这游戏，小伙差点没把持住，一旁小哥早已看透

谁发明的这游戏，小伙差点没把持住，一旁小哥早已看透

爱生活的陌 2025-03-03 09:10:13

全民穿越到宿舍求生游戏当中，而你觉醒了求生选题系统-3

全民穿越到宿舍求生游戏当中，而你觉醒了求生选题系统-3

是中里吧 2025-02-27 12:14:37

和小姨子玩个游戏、这下可赔大了

和小姨子玩个游戏、这下可赔大了

开心的青 2025-03-01 09:22:14

爸爸正带着双胞胎玩游戏，媳妇喊了一声后没音了，下一秒

爸爸正带着双胞胎玩游戏，媳妇喊了一声后没音了，下一秒

理想之声 2025-03-01 11:19:05

老婆不是最爱玩游戏吗？怎么生气了还？

老婆不是最爱玩游戏吗？怎么生气了还？

单枪挑胡酋 2025-03-02 00:00:00

再创新高！Steam在线玩家突破4000万；米哈游进入胡润中国50强

再创新高！Steam在线玩家突破4000万；米哈游进入胡润中国50强

叶子猪游戏网 2025-03-03 18:01:44

大人与小孩玩游戏，怎料小孩哥却“中计”了，网友：最后中大奖了

大人与小孩玩游戏，怎料小孩哥却“中计”了，网友：最后中大奖了

兴国融媒体中心 2025-03-03 09:25:56

游戏里的人物觉醒意识，展开一场冒险之旅

游戏里的人物觉醒意识，展开一场冒险之旅

洛克爱追剧 2025-02-27 17:00:41

《哥特王朝：重制版》忠于原版玩家表示非常满意

《哥特王朝：重制版》忠于原版玩家表示非常满意

3DM游戏 2025-03-03 10:03:08

只有这种男人才配在游戏中打爆我

只有这种男人才配在游戏中打爆我

辣条西施 2025-03-02 00:00:00

夫妻俩一起玩游戏，谁知母子俩太狠，竟然算计起爸爸！

夫妻俩一起玩游戏，谁知母子俩太狠，竟然算计起爸爸！

爆笑星河 2025-03-02 12:56:09

新郎新娘在游戏里相识，婚礼现场征兆十人开始对战，拍摄者：赢的那一队伍有红包

新郎新娘在游戏里相识，婚礼现场征兆十人开始对战，拍摄者：赢的那一队伍有红包

童话鹤壁 2025-03-03 19:28:48

靠小魔方一年赚两亿，这个广州人做了什么？

靠小魔方一年赚两亿，这个广州人做了什么？

虎嗅APP 2024-10-26 21:32:08

网红公司团建做游戏，小伙和前台美女合作无间，看来平时没少锻炼

网红公司团建做游戏，小伙和前台美女合作无间，看来平时没少锻炼

树心全观 2025-02-27 09:01:59

玩个游戏，怎么还把妹子整尿裤了呢？

玩个游戏，怎么还把妹子整尿裤了呢？

你的小星辰 2025-02-27 11:36:15

爸爸和孩子玩游戏，把妻子吓出一身冷汗，下秒看出谁才是老大

爸爸和孩子玩游戏，把妻子吓出一身冷汗，下秒看出谁才是老大

小幸运爱生活 2025-03-02 16:46:59

腾讯谈《三角洲》战役免费：希望玩家们都能重温经典

腾讯谈《三角洲》战役免费：希望玩家们都能重温经典

游民星空 2025-03-03 21:11:08

新郎玩游戏玩掉假发

每日看点汇 2025-03-01 11:42:37

和平精英接入DeepSeek游戏开启AI竞赛

和平精英接入DeepSeek游戏开启AI竞赛

财经懂王 2025-03-02 09:23:49

这游戏让他玩明白了，黑心老板终极载客指南

这游戏让他玩明白了，黑心老板终极载客指南

周杰铭 2025-02-28 11:06:22

孩子圏的危险游戏，爸妈赶紧了解避坑

孩子圏的危险游戏，爸妈赶紧了解避坑

育儿好威叔 2025-02-28 19:00:00

《地狱之刃3》：Ninja Theory计划大改近战和玩法设计

《地狱之刃3》：Ninja Theory计划大改近战和玩法设计

3DM游戏 2025-03-03 21:46:04

三国冰河时代最新兑换码零氪游戏小技巧

三国冰河时代最新兑换码零氪游戏小技巧

李本机使用中 2025-03-03 16:18:33

游戏里的风景那是真不错，启动！

游戏里的风景那是真不错，启动！

年鹏enpi 2025-02-27 18:29:18

超级马里奥3经典BGM重金属摇滚乐版本欣赏

超级马里奥3经典BGM重金属摇滚乐版本欣赏

幸运的蓝鸟 2025-03-01 18:26:00

60岁才能进的日本这电竞基地！一群老年人集体打游戏，这场面真没见过

60岁才能进的日本这电竞基地！一群老年人集体打游戏，这场面真没见过

英国那些事儿 2024-11-07 18:58:50

超430万，这个FPS电竞赛事又一次创纪录了

超430万，这个FPS电竞赛事又一次创纪录了

游戏智库 2025-03-03 21:09:46

T1连斩四大赛区头号种子，VCT生态成了“爽文”制造机

T1连斩四大赛区头号种子，VCT生态成了“爽文”制造机

体育产业独立评论 2025-03-03 20:33:39

「守望先锋冠军系列赛」2025赛事报名现已开启！

「守望先锋冠军系列赛」2025赛事报名现已开启！

网易暴雪游戏 2025-03-03 20:19:31

牌局激战：地主试探引波澜，凭灵动思维绝境翻盘

牌局激战：地主试探引波澜，凭灵动思维绝境翻盘

涩会小阿敏 2025-02-27 09:29:13

这个残局热闹了，宽容神预判拿捏地主

这个残局热闹了，宽容神预判拿捏地主

涩会小阿敏 2025-02-28 11:07:10

天赐高能心理战！思维太深了！连红尘有你都中招了！

天赐高能心理战！思维太深了！连红尘有你都中招了！

涩会小阿敏 2025-02-27 09:05:42

掘开离奇开牌遇上了天才廖大师的极端打法！

掘开离奇开牌遇上了天才廖大师的极端打法！

涩会小阿敏 2025-03-02 09:03:16

斗地主最牛骗炸操作，谁来都会上当不！

斗地主最牛骗炸操作，谁来都会上当不！

涩会小阿敏 2025-03-02 09:12:11