新智元报道
编辑:KingHZ
【新智元导读】谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练Scaling Law,虽然对模型性能提升不明显,但对于小语种等其他指标提升明显。让ViT大佬翟晓华直呼新发现让人兴奋!
预训练Scaling Law到尽头了?
ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。
他公布了最新的关于多模态Scaling的最新见解,而训练数据达到了1000亿的规模!
什么长尾任务的新发现让他兴奋?
一句话就是,Illya所说的「Scaling Law」即将终结,不太对。
新研究通过实验表明,1000亿数据规模对已有基准测试提升可能非常小,但显著影响了一些「非主流」的小众探索领域。
让大牛翟晓华眼前一亮点是:泰卢固语(Telugu)表现显著提升,即使仅占数据集的0.036%!
数据集中语言的长尾分布:左二表示泰卢固语的比例
图1总结了通过数据扩展实现的文化多样性和多语言性的提升。
图1:数据扩展所实现的文化多样性和多语言性的提升
左图显示了将数据规模从100亿扩展到1000亿训练数据,在文化多样性和多语言能力方面的提升比其他指标更加显著。
右图给出了数据规模影响的示例说明。最左边的两个是以为西方中心的指标,扩展数据到1000亿时,收益不大;而最右边的两个则展示了文化多样性和多语言能力的提升。
这让OpenAI的工程师Lucas Beyer不禁发帖质疑下列流传甚广的观点:
预训练scaling结束了 10-40亿图片足够了
他认为这类观点都是些缥缈的「神话」,而此类论断之所以甚嚣尘上,是因为忽视了下列提醒:
-你一叶障目,目光短浅 -不要只盯着美国可疑的评估指标 -拓展到1000亿预训练图片,会极大促进模型的文化和语言包容性
2023年,还在谷歌的Lucas Beyer见到实验结果时,就燃起了对泰卢固语的兴趣:
新研究的主要贡献如下:
1. 数据规模对于构建真正包容的多模态系统至关重要。
2. 质量过滤器(例如基于CLIP的过滤器)虽然通常用于提高整体数据质量,但可能会不经意限制数据集的多样性。
3. 发布了史无前例的1000亿视觉-语言数据集,并实证研究了数据集的潜力。
论文链接:https://arxiv.org/abs/2502.07617
Scaling Law的信仰:数据规模x10
视觉-语言模型(VLMs)的进展,与大规模数据集的可用性密切相关。
在过去,模型的发展,就是「大力出奇迹」:数据规模越大,模型误差越小,性能越高。
数据规模与模型性能之间的关系通常遵循幂律:
() = ⁻ᶜ + ,
其中()是模型性能指标如误差率,是数据规模。
这就是「缩放定律」(Scaling Law)。
重要的是,幂律表明,增加训练数据的量虽然会导致准确性和性能的收益逐渐递减,但依然能够带来物超所值的提升。
在Scaling Law信念的引领下,扩大数据集规模是视觉-语言(vision-language)的领域重点:
早期的数据集如Conceptual Captions,提供了数百万对图像-描述对用于预训练。
利用大规模网络爬虫技术Common Crawl项目,将数据集规模推向了数十亿对图像-文本对,从而加速了视觉-语言模型(VLMs)的进展。
截至文章发表时,报告的最大图像-文本对数据集已经停留在约100亿的规模上。
新的数据集WebLI100B包含1000亿图像-文本对,数据量增长了10倍。
项目链接:https://commoncrawl.org/
这类似于图像识别领域的情形, 比如数据集ImageNet加速了监督图像预训练的进展。
这引出了问题:将数据规模提高10倍,达到1000亿这个规模,能解锁哪些进一步的好处?
比如说:对人而言「读万卷书,行万里路」「见多识广」,对AI模型这些话也成立吗?
实验设置
训练数据
为了评估视觉-语言模型在大规模图像-文本数据上的表现,新研究构建了一个包含1000亿对图像-文本的数据集,称为WebLI-100B。
从1000亿数据集中分别随机抽取1%和10%的样本,创建了分别代表1亿和10亿样本的子集,分别称为WebLI-1B和WebLI-10B。
在此研究中,仅应用了必要的数据过滤,如去除有害图像和个人身份信息。这种方法确保数据集保持尽可能多语言和多样化。使用与每张图像关联的alt文本和页面标题作为配对文本。
为了确保公平评估,从数据集中去除了90多个常见视觉-语言任务中的近重复图像。
为了研究数据扩展对质量过滤数据的影响,采用常见方法,使用 CLIP-L/14 模型作为过滤器,保留一个包含50亿对图像和英文替代文本的高质量数据集。
论文链接:https://arxiv.org/abs/2103.00020
为了进一步巩固研究结果,研究人员在网络数据上训练了一个VLM,用于对齐或不对齐图像-文本对分类,并调整其阈值,以重新训练另一个大小相同的过滤数据集。
对比视觉-语言预训练
为了研究数据规模对模型性能的影响,使用三种不同的数据集大小(10亿、100亿和1000亿)训练了SigLIP模型,见表2中1B,10B, 100B对应的数据列。
还通过使用ViT-B/16、ViT-L/16和ViT-H/14架构来调整模型大小,分别用于图像和文本编码器,见表2中B、L以及H对应的数据行。
在大型、嘈杂的网络数据集上,对比学习已成为获取强大视觉表示的主导方法,这种弱监督范式超越了传统的监督学习方法。
这里采用SigLIP对比学习方法。
与标准的对比学习方法不同,Sigmoid损失仅在图像-文本对上操作。
同时允许批量大小的进一步扩展,而且在批量较小时也表现得更好。
论文链接:https://arxiv.org/abs/2303.15343
在对比训练过程中,其他设置如下:
批量大小:32K; 学习率:逆平方根调度; 预热和冷却阶段数据量:2亿; 学习率:0.001 权重衰减:0.0001。
在预处理阶段,图像被调整为224x224像素的分辨率,文本则使用多语言mt5分词器进行分词,最大序列长度为64个tokens。
所有模型的训练最大示例数为1000亿。
在多个训练步骤后冷却模型,并评估它们在冷却后的表现。所有模型在计算资源匹配的条件下进行比较。
通过这种方法,能够评估不同数据规模和模型规模对SigLIP模型性能的影响,并探讨如何根据数据规模调整训练过程以实现最优的性能。
测试结果
流行的基准测试结果
第一组评估使用了多样且广泛认可的基准测试,主要从上到下分为3类任务:
表2顶部表示零样本分类(zero-shot classification部分),使用ImageNet、CIFAR-100和Oxford-IIIT Pet数据集。
表2中间部分表示零样本检索(retirval@1部分),使用COCO Captions和Flickr30k数据集,包括图像到文本检索和文本到图像检索。
表2底部表示10-shot评估(10-shot部分),使用了Caltech-UCSD Birds、Caltech 101、Cars196、Colorectal Histology和Describable Textures Dataset (DTD)基准测试来评估视觉模型的表示能力。
如表2所示,将数据集的规模从100亿增加到1000亿个样本并未显著提升性能,通过Wilcoxon符号秩检验,该检验的值为0.9,表明差异不具有统计显著性。
此外,针对模型和数据集的不同组合,拟合了数据Scaling Law,从而评估在无限计算资源的情况下,性能差距是否会增加或减少。在表2中报告了结果中的扩展指数和渐近性能极限。同样,在95%的置信水平下,没有观察到显著差异(值为0.09)。
下图中,带下划线表示结果较差,而加粗的表示评估结果较好,可以看到1000亿(下图100B)的训练数据并不总会带来最佳结果,而且普遍提升的效果有限。
表2:从10B到100B的训练样本扩展,收益有限。
在ImageNet和CoCo检索中出现了收益递减现象,与缩放定律保持一致。
但这些基准测试的评估,主要反映的是西方(特别是英语国家)的语言文化。
文化多样性测评结果
近期的研究表明,为了提升视觉-语言模型性能而采用的流行技术,如基于英语语言的筛选,可能会无意中削弱文化理解。因此,研究人员这次也对文化多样性进行了评估,这些评估分为两类:
第一类:地理定位,涉及通过少量样本分类预测图像的来源国或地区。
第二类:在从不同地理区域策划的数据集上进行zero-shot分类,包括Dollar Street、GeoDE和Google Landmarks Dataset v2 (GLDv2)。
其中Dollar Street包含来自63个国家的38K张家庭物品图像。GeoDE包含来自不同地理位置的62K张手动标注图像。最后,GLDv2包含来自84个国家的1,542张图像,代表884个地标,用于评估模型在识别具有文化重要性的地点方面的表现。
与以西方为导向的测试标准不同,文化多样性呈现出完全不同的结果。
新研究发现,当数据集的规模从100亿扩展到1000亿时,文化多样性任务的表现有显著提升。
如表3所示,将训练数据从100亿扩展到1000亿个样本,在Dollar Street的10-shot分类任务中,ViT-L和ViT-H的绝对提升分别为5.8%和5.4%,远超在以西方为导向的10-shot度量标准上通常观察到的不到1%的改善。
使用Wilcoxon符号秩检验,得到值为0.002,表明在99%的置信水平下,这一差异具有统计学显著性。
表3 | 文化多样性基准的评估和扩展规律,其中从100亿到1000亿个样本的扩展显示出更大的优势。
多语言性
使用Crossmodal-3600数据评估模型的多语言能力,该数据集包含来自36种语言的3600张具有人工生成标题的地理多样化图像。
下图3展示了性能提升的差异:低资源语言在1000亿规模下比高资源语言受益更多。这种差异不论模型参数规模大小都存在,而且随着模型规模的增大,差距逐渐加大。
每种语言的详细结果,可以参考下表8。
实验分析
质量过滤器的影响
尽管这些过滤器在传统任务中通常有益,但它们通过减少某些文化背景的表现,可能会对数据多样性产生负面影响。
原始网络数据通常噪声过大,难以有效训练视觉-语言模型。为了解决这一问题,常见的一种策略是使用数据过滤模型,去除不太相关的图像-文本对。
在新研究中,在下列三个数据集上训练了ViT-L模型:
利用CLIP-L/14模型对原始数据进行过滤,并重新训练了50亿个高质量的英文图像-文本对。
为了进行对比,还在原始网络数据上训练了一个分类模型,得到了一个大小相同的过滤数据集。
此外,还从原始数据中抽取了一个相同大小的英文子集,作为基准。
CLIP过滤器在以西方为中心的任务中表现出色,这与数据驱动的研究一致,表明有效的数据过滤能够提升模型性能。
然而,所有经过过滤的数据集在其他任务中表现较差,尤其是在涉及文化多样性的任务中。
这是数据过滤的一个主要缺点,即它可能无意中将偏见引入过滤后的数据集,这与先前的研究结果一致。
数据质量过滤可能会妨碍文化多样性(图4中)和公平性(图4右),即使它在以西方为中心的任务(图4左)中有所帮助,具体结果如下:
图4:数据质量过滤对不同任务的影响
语言再平衡
在原始数据中,低资源语言的比例仅为0.5%,这导致模型无法充分学习这些语言或地区中的概念。
为了解决这个问题,将每种低资源语言的样本量上采样到固定的1%比例。
通过这种再平衡,如图5所示,模型在低资源语言基准上的表现有所提升。相应地,高资源语言的表现略有下降,但仍然保持在可比范围内(这也适用于其他仅基于英文的zero-shot检索任务),从而在整个多语言基准上实现了总体的提升。
此外,还观察到,在文化多样性任务中有轻微的改善,而在其他任务中结果略有下降,这可能是由于减少了以西方为中心的示例所致,因为大多数评估都基于英文数据。
具体结果见图5。
图5:语言再平衡的结果
定性示例
通常,经过更大规模数据训练的模型,会更加专注于语义相关的区域。
例如,在「伊戈洛舞蹈」(Igorot Dance)图像中,100B训练的模型能够捕捉到更精细的细节,如传统装饰品上的复杂图案和具有文化意义的物品。
在「冰屋」(Igloo)图像中,100B训练的模型准确地聚焦于冰屋的结构细节(其圆顶形状),与其他模型不同,后者被背景中的山脉和冰雪等元素分散了注意力。
除了低资源概念,100B数据还可以提高常见概念的性能。如「野牛」(Bison)图像所示,经过更大数据集训练的模型能够更准确地捕捉到野牛,而不是周围的景观。
不同数据规模下,训练的 ViT-L/16 模型的注意力图可视化区域比较。
作者简介
另外值得一提的是,共一华人作者Xiao Wang。
2008年,他本科毕业于南京大学计算机软件工程专业;2011年,硕士毕业于北京大学计算机软件工程专业。
在国内积累了5年经验后,于2015年加入谷歌DeepMind,任高级软件工程师。
参考资料:
https://x.com/giffmana/status/1889797540671005101
https://arxiv.org/abs/2502.07617