新智元报道
编辑:英智 犀牛
【新智元导读】AI编程智能体的能力正在飞速增长,最新研究揭示了这一「新摩尔定律」,如果AI智能体的任务时长继续以每4个月翻倍的速度增长,到2027年它们可能完成长达167小时的月级任务!
编程智能体能完成的任务量,正以爆炸式的速度增长!
而且,这一趋势还在加速。
2024到2025年,它们的任务处理能力每4个月翻一倍;而在2019到2025年,这个翻倍周期则是7个月。
22号,AI研究网站AI Digest发表了上述观点,揭示了一个AI智能体的新摩尔定律。
博客地址:https://theaidigest.org/time-horizons
从图表中可以清晰地看到这一趋势,任务时长的增长轨迹几乎是一条陡峭的指数曲线。
2019年,GPT-2只能处理不到1秒的简单任务;2022年ChatGPT发布时,AI已经可以完成30秒的编程任务。
现在,智能体可以自主完成人类需要一小时才能完成的编程任务。
顶尖的AI系统可以完成的任务长度正在呈指数级增长——每7个月翻一番。
这个趋势是METR的研究人员发现的。
他们选取了2019到2025年间最强的AI模型,测试了它们在大约200个任务上的表现。主要是编程任务,也有一些逻辑推理任务。
然后,他们把AI的成功率和每个任务的长度做了对比——任务长度指的是专业人士完成这些任务需要的时间,从不到30秒到超过8小时不等。
测试过所有模型后,出现了两个明显的规律:
任务长度和AI成功率高度相关(相关系数R²=0.83)。
AI成功率达到50%的任务长度——即「时间跨度」——正在呈指数增长。
接下来是什么?
这个指数增长的趋势看起来很稳健,没有停下来的意思。
如果按照这个趋势推算下去,AI智能体将能够完成:
2026年:2小时的任务;
2027年:1个工作日(8小时)的任务;
2028年:1个工作周(40小时)的任务;
2029年:1个工作月(167小时)的任务。
最近,这一趋势还在加速。
2024-2025年间,时间跨度是每4个月任务长度翻一番,而2019-2025年间则是每7个月翻一番。
如果按照2024-2025年加速的趋势(每4个月翻倍)推算,AI智能体可能在2027年就能完成月级任务(167小时)。
然而,仅观察一年的数据给出预测可能会不太稳定,实际的进步速度也可能会放缓。
不过,考虑到这个趋势已经开始加速,它很可能处于一个比指数增长还要快的增长轨道上。
这也很符合直觉:随着增长轨道直线上升,1周和2周任务之间所需技能的差距,可能比1年和2年任务之间的差距更大。
此外,随着AI能力的提升,它们在开发更强大AI方面的作用会越来越大,可能导致超指数级增长。
智能爆炸
AI智能体的能力提升会反过来加速更强大AI的研发,形成飞轮效应:更强大的AI智能体能够更快地开发出更先进的AI系统,从而进一步提升能力。
这种正反馈循环可能导致超指数增长,甚至触发「软件智能爆炸」(software intelligence explosion),即AI能力在短时间内急剧提升,远远超过人类的水平。
此外,算法进步也在推动这一趋势。
METR的研究表明,近年来AI在算法效率上的提升,显著降低了计算资源需求。
通过更高效的预训练和后训练方法,即使硬件资源不增加,AI智能体的能力也能快速提升。
AI智能体任务时长的指数增长,可能成为人类历史上最具变革性的趋势之一。
它能在短时间内完成复杂任务,将彻底改变软件开发、科学研究、医疗诊断等多个领域。
例如,一个能够自主完成月级任务的AI智能体,可以完全自动化软件工程项目,甚至独立进行科学研究,从而大幅提高生产效率。
这一趋势也带来了潜在的社会挑战。随着AI智能体能力的快速提升,人类社会可能难以适应这种变化。
许多传统职业可能面临自动化,人类可能需要转向更具创造性和策略性的角色。
参考资料:
https://theaidigest.org/time-horizons
https://x.com/AiDigest_/status/1914710297157493173