CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

2024-12-16 17:23:51

新智元报道

编辑：编辑部 HZj

【新智元导读】Ilya「预训练结束了」言论一出，圈内哗然。谷歌大佬Logan Klipatrick和LeCun站出来反对说：预训练还没结束！Scaling Law真的崩了吗？Epoch AI发布报告称，我们已经进入「小模型」周期，但下一代依然会更大。

最近，Ilya在NeurIPS 2024中宣布：预训练结束了！瞬间一石激起千层浪。

作为前OpenAI首席科学家，Ilya的这番话，有可能影响之后数十年的AI发展方向。

不过，预训练真的结束了吗？

最近，几位圈内大佬，就公开站出来质疑和反对Ilya了。

谷歌大佬Logan Kilpatrick是这样内涵Ilya的：认为预训练结束，恐怕是因为你缺乏想象力。

前Meta具身智能团队的高级总监Dhruv Batra也站出来共同表示：Ilya错了！

在他看来，人类的数据还没有用完。

我们只是用完了人类书写的文本而已，但我们拥有的视频数量，依然远超我们的处理能力，目前只是尚未解决视觉领域的预训练问题罢了。

的确，要知道，网络上的文本公共数据，毕竟只是冰山一角而已。

我们除了文本，还能对音频、视频、图像进行预训练，甚至可以把视觉、嗅觉、触觉、平衡和传感器这些人类进化出来的功能赋予机器。

而如果模型真的可以学习的话，那数据或许确实是无所不在。

左右滑动查看

有人则充分放分想象：如果预训练能和生物相连，那它的确永远不会结束。

Scaling Law和预训练到底有没有撞墙？

种种事件表明，我们已经站在了一个发展路线的分水岭。

Ilya、LeCun甚至奥特曼，都已经感觉到：目前的发展路线不能再延续下去了，我们亟需探索新的出路。

早期，Ilya曾是暴力Scaling的早期倡导者之一，认为通过增加数据和算力来「scale up」，能显著改善模型性能。

最近，Epoch AI研究员的一篇长文，更是直观地展示了这个「矛盾」的现象。

从2017年Transformer架构诞生到GPT-4发布，SOTA模型的规模一直在变大，但增幅在变小。

从GPT-1到GPT-3，用了2年时间，模型参数量从1.17亿增加到1750亿，增加了1000倍
从GPT-3到GPT-4，用了2年9个月，模型参数量从1750亿增加到1.8万亿，增加了10倍

而到了2023年，这一趋势直接发生了逆转。

据估计，当前SOTA模型的参数可能要比GPT-4的1.8万亿小一个数量级！

GPT-4o大约为2000亿参数
Claude 3.5 Sonnet约为4000亿参数

但有趣的是，下一代模型的规模，可能又会重新超过GPT-4。

当今SOTA模型最大只有约4000亿参数

尽管许多实验室没有公开模型架构，Epoch AI的研究员依然从蛛丝马迹中发现了线索。

首先是开源模型的证据。根据Artificial Analysis的模型质量指数，当前最佳的开源模型是Mistral Large 2和Llama 3.3，分别拥有1230亿和700亿参数。

这些稠密模型，架构与GPT-3相似，但参数更少。它们总体的基准表现超过了GPT-4和Claude 3 Opus，且由于参数更少，它们的推理成本和速度也更优。

对于闭源模型，尽管我们通常无法得知参数详情，但可以根据推理速度和收费推测它们的大小。

仅考虑短上下文请求，OpenAI提供的2024年11月版本GPT-4o，每个用户每秒100-150个输出token，收费每百万输出token 10美元；而GPT-4 Turbo每秒最多大约55个输出token，费用是每百万输出token 30美元。

显然，GPT-4o比GPT-4 Turbo更便宜且更快，因此它的参数可能比GPT-4小得多。

另外，我们还可以使用推理经济学的理论模型，来预测GPT-4在H200上进行推理的成本。

假设使用H200进行推理的机会成本为每小时3美元，下面的图显示了不同价格点下，GPT-4及其假设缩小版的生成速度。

总体来说，为了让模型每秒生成100个以上的token并且能够流畅服务，模型需要比GPT-4小得多。

根据上图，假设OpenAI的价格加成大约是GPU成本的八分之一，GPT-4o的参数量可能在2000亿左右，虽然这个估计可能有2倍的误差。

有证据表明，Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成约60个token，每百万输出token收费15美元。这速度在优化设置下接近原版GPT-4的收支平衡点。

不过，考虑到Anthropic API可能加价不少，Sonnet参数规模仍显著小于GPT-4，估计在4000亿左右。

总体来看，当前前沿模型的参数大多在4000亿左右，像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。

虽然对于闭源模型的参数估计有很大的不确定性，但我们仍然可以推测，从GPT-4和Claude 3 Opus到如今最强的模型，规模缩小的幅度可能接近一个数量级。

为什么会这样？

针对这一现象，Epoch AI认为有四个主要原因：

1. AI需求爆发，模型不得不瘦身

自ChatGPT和GPT-4发布以来，AI产品需求激增，服务商面临的推理请求大大超出预期。

此前，从2020年到2023年3月，模型训练的目标是最小化训练计算量，即在固定的能力水平下，花费尽可能少的计算资源完成训练。Kaplan和Chinchilla的Scaling Law建议，随着训练计算量的增加，模型规模也应扩大。

随着推理成本占据支出的大头，传统法则的适用性受到了挑战。相比scaling模型规模，在更多训练数据（token）上训练较小的模型反而更划算，因为较小的模型在推理阶段的计算需求较低，能够以更低的成本服务用户。

比如，从Llama 2 70B到Llama 3 70B，虽然模型参数规模没有显著增加，但模型的性能却显著提升。

这是因为通过过度训练（在更多数据上训练较小的模型），可以让模型在保持小规模的同时，表现得更强大。

2. 蒸馏，让小模型更能打

实验室还采用了「蒸馏」方法，从而让更小的模型表现得更强大。

蒸馏指的是让小模型模仿已经训练好的大模型的性能。

蒸馏方法有很多种，其中一种简单的方法是使用大模型生成高质量的合成数据集来训练小模型，而更复杂的方法则需要访问大模型的内部信息（如隐藏状态和logprobs）。

Epoch AI认为，GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型蒸馏得到的。

3. Scaling Law的转变

Kaplan Scaling Law（2020）建议，模型的参数量与训练用的token数量（即数据量）应保持较高的比例。简单来说，当你增加训练数据时，应该相应增加模型的规模（参数量）

而Chinchilla Scaling Law（2022）则偏向于更多训练数据和更少的参数。模型不必越来越大，关键在于训练数据的规模和多样性。

这个转变导致了训练方式的改变：模型变得更小，但训练数据更多。

从Kaplan到Chinchilla的转变，并非因为推理需求的增加，而是我们对如何有效scaling预训练的理解发生了变化。

4. 推理更快，模型更小

随着推理方法的改进，模型生成token的效率和低延迟变得更加重要。

过去，判断一个模型「足够快」的标准是看它的生成速度是否接近人类的阅读速度。

然而，当模型在生成每个输出token时需要先推理出多个token时（比如每个输出token对应10个推理token），提升生成效率就变得更关键。

这推动了实验室，像OpenAI，专注于优化推理过程，使得模型在处理复杂推理任务时能够更高效运行，也因此促使它们缩小模型的规模。

5. 用AI喂AI，成本更低

越来越多的实验室开始采用合成数据作为训练数据来源，这也是促使模型变小的原因之一。

合成数据为训练计算scaling提供了一种新的途径，超越了传统的增加模型参数量和训练数据集大小的方法（即，超越预训练计算scaling）。

我们可以生成将来用于训练的token，而不是从互联网上抓取它们，就像AlphaGo通过自我对弈生成训练数据一样。

这样，我们可以保持Chinchilla Scaling Law下计算最优的token与参数比例，但通过生成数据时为每个token投入更多计算，从而增加训练计算量而不增加模型大小。

奥特曼：参数规模竞赛即将终结？

2023年4月，OpenAI发布了当时最强的，同时也是第一款未公开参量的模型GPT-4。

之后不久，CEO奥特曼曾预言了模型参数竞赛的终结：围绕模型参数量的竞赛，就像历史上对更高处理器主频的追求，是一个死胡同。

那么，前沿模型的规模会不会越变越小呢？

简短的答案是——可能不会。但也很难说是否应该期待它们在短期内变得比GPT-4更大。

从Kaplan到Chinchilla的转变是一次性的，因此我们没有理由期待它继续让模型变小。

GPT-4发布后的推理需求增长也可能快于未来推理支出的增长速度。且合成数据和scaling计算并非每个实验室都在采纳——即使有高质量的训练数据，对于非常小的模型而言，能够取得的成就可能非常有限。

此外，硬件的进步可能会促使更大的模型变得更优，因为在相同预算下，大模型通常表现更好。

较小的模型在推理时可能表现更差，尤其在长上下文和复杂任务上。

未来的模型（如GPT-5或Claude 4）可能会恢复或稍微超过GPT-4的规模，之后是否继续缩小规模难以预料。

理论上，当前硬件足以支持比GPT-4大50倍、约100万亿参数的模型，可能以每百万输出token 3000美元、每秒10-20个token的速度提供服务。

但正如Karpathy所说，相比于如今这种只能根据prompt去解决博士级别问题的AI，一个能够真正作为「实习生」入职的AI更为实用。

参考资料：

https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smaller

https://x.com/OfficialLoganK/status/1868002617311596552

https://x.com/DhruvBatraDB/status/1868009853324865762

https://x.com/karpathy/status/1868061331355840704

OpenAI附议Ilya预训练终结！“但Scaling Law还没死”

OpenAI附议Ilya预训练终结！“但Scaling Law还没死”

量子位 2024-12-16 10:59:17

清华系出手！全球第一款端侧全模态理解模型开源

清华系出手！全球第一款端侧全模态理解模型开源

智东西 2024-12-16 16:15:50

当暴雪侵袭模型机场，惟妙惟肖细节满满，外国思维真发散

当暴雪侵袭模型机场，惟妙惟肖细节满满，外国思维真发散

晴密搞笑 2024-12-12 11:24:41

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21

OpenAI“吹哨人”被证实死亡年仅26岁曾参与GPT-4预训练团队

OpenAI“吹哨人”被证实死亡年仅26岁曾参与GPT-4预训练团队

每日经济新闻 2024-12-15 15:11:10

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

机器之心Pro 2024-08-16 17:22:16

朝鲜人民军在库尔斯克的冰天雪地里用人海战术向乌克兰阵地冲锋

朝鲜人民军在库尔斯克的冰天雪地里用人海战术向乌克兰阵地冲锋

军武大狼 2024-12-16 03:49:14

奥特曼，杨植麟的理想型？

虎嗅APP 2024-12-13 22:20:56

字节跳动与北京大学成立豆包大模型联合实验室

字节跳动与北京大学成立豆包大模型联合实验室

IT之家 2024-12-13 13:18:08

让“屏风马”不再是高手的专利屏风马的基本理论2

让“屏风马”不再是高手的专利屏风马的基本理论2

板牙象棋 2024-12-12 19:00:00

亚刻最后的单元回！消除记忆制造乐园，优马靠想象力绝地反胜

亚刻最后的单元回！消除记忆制造乐园，优马靠想象力绝地反胜

漫说君动漫 2024-12-14 20:41:00

女子取五万救急银行卡壳，女子声撕怒吼，银行职员无动于衷

女子取五万救急银行卡壳，女子声撕怒吼，银行职员无动于衷

触视角 2024-12-16 18:41:23

已有超7000万人购买个人养老金

已有超7000万人购买个人养老金

央视新闻客户端 2024-12-16 11:51:21

十问CPU做AI推理，伪命题还是真需求？

十问CPU做AI推理，伪命题还是真需求？

量子位 2024-07-16 17:16:48

ChatGPT拒绝谈论这个人，没人知道为什么

ChatGPT拒绝谈论这个人，没人知道为什么

量子位 2024-12-02 13:07:36

大鹅的数据！看看就行！雇佣兵阵亡人数变少了

大鹅的数据！看看就行！雇佣兵阵亡人数变少了

二虎涛哥 2024-12-16 11:01:17

100个退休人员中，有几个退休金能达到5000元？统计数据出来

100个退休人员中，有几个退休金能达到5000元？统计数据出来

田社长观世界 2024-12-13 08:29:21

老哥密码忘记了11年的34个比特币，终于找回来了！这其中也是波折

老哥密码忘记了11年的34个比特币，终于找回来了！这其中也是波折

英国那些事儿 2024-10-28 23:18:49

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

新智元 2024-12-15 11:35:56

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

钛媒体APP 2024-08-23 18:19:34

好家伙，我这女儿太能理论了，有点说不过她了

好家伙，我这女儿太能理论了，有点说不过她了

暖阳如你 2024-12-14 00:00:00

小哥正在给模型打气，正好被兄弟看到这幕，这下直接解释不清了！

小哥正在给模型打气，正好被兄弟看到这幕，这下直接解释不清了！

幽默能量站 2024-12-13 14:42:13

320万的拆迁款，母亲只给了大儿子20万，儿子不服气去找母亲理论

320万的拆迁款，母亲只给了大儿子20万，儿子不服气去找母亲理论

千寻情感动画 2024-12-12 10:30:00

驴友庆祝登上山顶的仪式普通人看了都脚软

驴友庆祝登上山顶的仪式普通人看了都脚软

火炼树 2024-12-15 19:10:19

这个机械模型传输设计，如果用在生活中一定很不错

这个机械模型传输设计，如果用在生活中一定很不错

下班乐翻天 2024-12-15 19:24:08

大哥做游戏架构师多年，练就了一项本领，特别是在迷宫里面

大哥做游戏架构师多年，练就了一项本领，特别是在迷宫里面

搞笑青门 2024-12-15 16:22:32

美女展示空中一字马，体态舒展肌肉匀称，奥特曼的腿都不敢这么掰

美女展示空中一字马，体态舒展肌肉匀称，奥特曼的腿都不敢这么掰

小孟生活说 2024-12-15 08:44:10

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

量子位 2024-07-23 18:10:04

奥迪逆行遭雪弗兰直接撞上去双方下车理论

奥迪逆行遭雪弗兰直接撞上去双方下车理论

火炼树 2024-12-14 20:37:31

高价买的超迷你摩托，小到以为是辆模型，难道这是黑猫警长的！

高价买的超迷你摩托，小到以为是辆模型，难道这是黑猫警长的！

爆笑萌仔 2024-12-13 11:48:42

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，超级智能才是未来

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，超级智能才是未来

新智元 2024-12-14 16:00:21

MIT开发新方法，无需从头训练机器人即可执行复杂任务

MIT开发新方法，无需从头训练机器人即可执行复杂任务

DeepTech深科技 2024-11-05 18:05:35

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器之心Pro 2024-09-05 10:30:36

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

机器之心Pro 2024-11-19 15:50:17

沈向洋，发了一个可以识别万物的大模型

沈向洋，发了一个可以识别万物的大模型

36氪 2024-11-23 14:15:07

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

机器之心Pro 2024-08-16 17:41:46

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

新智元 2024-12-16 17:28:19

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35

字节AI版小李子一开口：黄风岭，八百里

字节AI版小李子一开口：黄风岭，八百里

量子位 2024-09-13 22:49:29