CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

Nature发文「智能体摩尔定律」，Agent能力每7个月翻倍

2025-03-21 12:22:09

AI Agents（智能体）也有自己的“摩尔定律”了？！

就在最近，Nature报道了一项来自非营利研究机构METR的最新发现：

AI在完成长期任务方面的进步速度惊人，其时间跨度大约每七个月翻一番。

为了衡量Agent自动完成任务的能力变化，研究人员提出了“50%-任务完成时间跨度（50%-task-completion time horizon）”这一指标。

他们以50%任务成功率为基准，假设2019年AI达到这一目标所需时间对应人类需要的时间为10分钟，那么7个月后，其对应的人类完成任务时间则变成了20分钟。

换句话说，AI能够胜任越来越多人工耗时久的任务，能力逐渐更强。

2024年这一增长速度变得更快了，一些最新模型大约每三个月翻一番。

按照预测，大约五年后，AI就能自动完成很多人类现在要花一个月才能完成的任务。

网友们纷纷表示，这下终于对AI进步神速有实感了！

提出“50%-任务完成时间跨度”指标

在METR的介绍中，他们将这一发现命名为“Moore’s Law for AI agents”，也就是“智能体摩尔定律”。

下面我们详细展开其研究方法。

整体而言，他们主要是让AI和一些专业人员在相似条件下尝试完成任务，然后测量人类所需要的时间，最终来比较AI成功率如何随着人类完成时间的长短而变化。

这第一步，研究团队选择了三个不同的任务套件来评估AI模型的能力：

97个HCAST任务，涵盖软件工程、机器学习、网络安全和一般推理挑战的多样化任务集合，难度从几分钟到30小时；
7个RE-Bench任务，由七个开放式的机器学习研究工程环境组成，每个需人类专家约8小时完成；
66个SWAA任务，代表软件开发过程中的单个步骤操作，时长1秒到30秒。

接下来，为了量化评估AI模型的表现，团队招募了800多名软件工程、机器学习和网络安全领域的专业人员执行任务，并记录他们完成任务所需的时间。

据METR介绍，在这些任务中，人类完成时间从1秒到16小时不等。

这些时间被当作衡量任务难度的标准。

然后他们又评估了从2019年到2025年发布的13个前沿AI模型，包括GPT系列和o1、Sonnet 3.7等，通过在构建的任务套件上运行这些模型，并记录它们完成任务的成功率。

关键来了，随后他们引入了一个新的指标——50%任务完成时间跨度（50%-task-completion time horizon），即AI模型在50%的成功率下能够完成的任务的平均时间长度。

之所以选择50%这一成功率，主要是它对于数据分布的微小变化最为稳健。

简单说，当数据的分布（即数据的特征、比例或趋势等）发生一些小的变化时，这个指标不会受到太大的影响，仍然能够保持相对稳定的表现。

论文作者之一Lawrence Chan表示：

如果你选择非常低或非常高的阈值，那么分别移除或增加一个成功或失败的任务，就会对你的估计值产生很大的影响。

利用这一指标，团队通过对AI模型在各个任务上的成功与失败数据进行逻辑回归分析，计算出每个模型的时间跨度，也就是模型完成任务成功率达到50%之时，对应的人类完成任务的时间。

（每个模型在每个任务上运行8次，记录成功率）

有了这些数据，团队最终绘制了模型自主性随时间呈指数变化的图表。

发现“AI智能体摩尔定律”

如上图所示，研究的主要发现是：

自2019年以来，AI模型的时间跨度呈现出指数级增长，每七个月左右翻一番。

为了验证研究结果的外部有效性，他们又进行了以下四个实验：

1、用2023-2025年数据回溯预测，验证趋势一致性；
2、对HCAST和RE-Bench任务基于16个 “混乱” 因素评级，分析任务混乱程度对模型性能的影响；3、在其他SWE-bench Verified数据集上应用相同方法，对比结果；4、在内部Pull Requests（PR）任务上测试模型性能，与人类基线对比。

最终，这一趋势得到了以上外部验证。

比如在第2个实验中，所谓的16个 “混乱（messy）” 因素是指现实任务比研究任务更难的方面，包括任务是否受到有限资源的限制、是否涉及实时协调或是否源自现实世界的环境。

每个任务都根据这些因素得到了一个 “混乱度（messiness score）” 分数。

研究人员发现，尽管AI模型在更加混乱的任务上（比如缺乏明确提示和反馈、需要AI主动去获取信息、任务条件和要求比较模糊等情况）的绝对性能较低，但另一方面其性能在稳步提升。

更有意思的是，不管任务的“混乱”程度如何，AI都是以相似的速度在提升。

再比如在SWE-bench Verified基准上的验证，他们也观察到了一个类似的指数级增长趋势。

不过由于标注时间的问题，该基准测试的时间跨度翻倍时间更短。

总之，按照“智能体摩尔定律”进行预测，AI可能在2028年11月达到一个月的任务时间跨度；而在较为保守的估计下，这一目标可能在2031年2月实现。

METR团队认为，虽然研究还存在任务套件具有局限性、评估指标不完美、未来AI发展具有不确定性等需要完善的地方，但很确信这一指标每年有1~4倍的增长趋势。

而结合现实中Manus智能体的走红，我们已经能够预见到智能体将迎来爆发。

论文：
https://arxiv.org/pdf/2503.14499

数据标注业务快速发展，专家建议加快推进规范化与标准化

数据标注业务快速发展，专家建议加快推进规范化与标准化

每日经济新闻 2025-03-22 16:55:07

ICLR 2025北京论文分享会启动，一起探讨多模态、Agent等热门话题

ICLR 2025北京论文分享会启动，一起探讨多模态、Agent等热门话题

机器之心Pro 2025-03-21 18:44:03

硅谷投资人爆料：AI爆炸率先发生在中国！芯片扩大1万倍，AI逼近物理极限

硅谷投资人爆料：AI爆炸率先发生在中国！芯片扩大1万倍，AI逼近物理极限

新智元 2025-03-22 17:03:35

美团想另选一种命运

虎嗅APP 2025-03-22 17:10:06

声网首席运营官刘斌分享多模态对话AI Agent应用

声网首席运营官刘斌分享多模态对话AI Agent应用

量子位 2024-12-23 16:30:17

男子无聊在家做实验，最后点火的时候惊呼出声

男子无聊在家做实验，最后点火的时候惊呼出声

财经时间官方 2025-03-19 23:11:54

大模型上下文协议MCP，短期泡沫还是未来之光？颠覆现在的互联网？AI大模型训练

大模型上下文协议MCP，短期泡沫还是未来之光？颠覆现在的互联网？AI大模型训练

卢菁老师 2025-03-21 10:39:51

自己给自己开发的产品做实验

就酱紫剪辑 2025-03-20 17:13:09

Roblox发布3D智能基础模型Cube，一句话生成游戏资产

Roblox发布3D智能基础模型Cube，一句话生成游戏资产

机器之心Pro 2025-03-21 14:56:44

Idea撞车何恺明「分形生成模型」！速度领先10倍，性能更强

Idea撞车何恺明「分形生成模型」！速度领先10倍，性能更强

新智元 2025-03-22 09:10:27

帅哥被扯下的皮很快长出新的，人们用它脸上的液体，做起了实验

帅哥被扯下的皮很快长出新的，人们用它脸上的液体，做起了实验

嘟嘟追剧 2025-03-19 08:33:18

科普百遍不如实验一遍，让孩子感受科学之妙，满足好奇心，激发求知欲

科普百遍不如实验一遍，让孩子感受科学之妙，满足好奇心，激发求知欲

BRTV新闻 2025-03-21 16:17:46

AIOS座舱发布会：智己首次引入AI Agent，打造真正AIOS新体验引领汽车行业变革

AIOS座舱发布会：智己首次引入AI Agent，打造真正AIOS新体验引领汽车行业变革

封面新闻 2025-03-21 14:59:22

那个地方纹了，就没人品尝了，不好看

那个地方纹了，就没人品尝了，不好看

娱乐圈人物大赏 2025-03-22 00:25:11

这个实验完美诠释了，中奖的概率有多低，猜猜最后能中几个！

这个实验完美诠释了，中奖的概率有多低，猜猜最后能中几个！

快乐时刻 2025-03-22 01:29:21

男人有多癫狂，为了实验竟这样做！

男人有多癫狂，为了实验竟这样做！

MIA影视 2025-03-22 12:02:01

一所中学如何破题科学教育

中国教育新闻网 2025-03-22 07:08:12

这也太酷了！化身名侦探柯南，做半天小法医！东方小作家春季实践营等你来！

这也太酷了！化身名侦探柯南，做半天小法医！东方小作家春季实践营等你来！

上观新闻 2025-03-22 18:08:22

当战争变量坍缩为数字公式：核武器如何改变传统战争逻辑？

当战争变量坍缩为数字公式：核武器如何改变传统战争逻辑？

邵永灵 2025-03-20 19:17:39

无车对有车，软件级别的构思，太猛了

无车对有车，软件级别的构思，太猛了

环球地图v 2025-03-20 09:35:29

俄方最新对华表态

环球时报 2025-03-21 20:49:28

工作人员操控着机器，轻轻一撸清理掉石柱上的藤壶，网友：画面看起来极度舒服

工作人员操控着机器，轻轻一撸清理掉石柱上的藤壶，网友：画面看起来极度舒服

咸宁新闻 2025-03-20 15:47:57

王铁锤大战全球冠军洪智！全盘步步是软件神招，瞬间看傻所有人

王铁锤大战全球冠军洪智！全盘步步是软件神招，瞬间看傻所有人

灵洋 2025-03-21 13:58:22

曹岩磊vs申鹏满分神局妙手弃马步步软件招 2023鹏城杯

曹岩磊vs申鹏满分神局妙手弃马步步软件招 2023鹏城杯

紧急财经 2025-03-22 09:11:18

从六代机落后到七代机领先？这“嘴炮”逻辑是怎么说服自己的？

从六代机落后到七代机领先？这“嘴炮”逻辑是怎么说服自己的？

军立方 2025-03-21 20:00:49

罗布乐思AI聊天审核效果不错但没法替代真人

罗布乐思AI聊天审核效果不错但没法替代真人

3DM游戏 2025-03-21 14:38:05

神仙打架象棋软件的碰撞第三届至尊旋风杯总决赛

神仙打架象棋软件的碰撞第三届至尊旋风杯总决赛

体坛Snooker 2025-03-21 09:45:35

楼市迎来小阳春！未来，房地产趋势如何？

楼市迎来小阳春！未来，房地产趋势如何？

一路听天下朱国勇 2025-03-20 19:38:42

你身边的年轻人，正在被这个绿色软件追杀

你身边的年轻人，正在被这个绿色软件追杀

网易浪潮工作室 2025-03-21 15:01:15

曹岩磊大战汪洋！投其所好卖掉象，软件大招爱补刀！

曹岩磊大战汪洋！投其所好卖掉象，软件大招爱补刀！

小新剧 2025-03-19 09:18:03

视频可以精准控制了！一句话给熊戴眼镜的那种，扩散模型立功

视频可以精准控制了！一句话给熊戴眼镜的那种，扩散模型立功

量子位 2025-03-21 15:43:34

10分钟教你机器学习建模的6大步骤

10分钟教你机器学习建模的6大步骤

医咖会 2025-03-14 19:53:09

OpenAI推出语音模型全家桶：AI将说得更动情、听写更准确

OpenAI推出语音模型全家桶：AI将说得更动情、听写更准确

财联社 2025-03-21 11:09:09

从思考，到行动：由Manus爆火谈AI Agent

从思考，到行动：由Manus爆火谈AI Agent

钛媒体APP 2025-03-14 14:44:11

超级Agent，鸣枪起跑

机器之心Pro 2025-03-17 10:30:11

黄仁勋，拐点出现

虎嗅APP 2025-03-21 07:11:44

英伟达开源自适应多模态「世界生成」模型！开启机器人、自动驾驶训练革命

英伟达开源自适应多模态「世界生成」模型！开启机器人、自动驾驶训练革命

新智元 2025-03-22 09:10:51

对话周光：自动驾驶实现AGI，RoadAGI比L5更快 | GTC 2025

对话周光：自动驾驶实现AGI，RoadAGI比L5更快 | GTC 2025

量子位 2025-03-21 17:26:04

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

50条数据解锁空间智能，RL视觉语言模型3D空间推理框架 |西北大学

50条数据解锁空间智能，RL视觉语言模型3D空间推理框架 |西北大学

量子位 2025-03-22 16:37:01