CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

2025-02-07 13:24:40

新智元报道

编辑：英智好困

【新智元导读】SANA 1.5是一种高效可扩展的线性扩散Transformer，针对文本生成图像任务进行了三项创新：高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本，还在生成质量上达到了最先进的水平。

近年来，文本生成图像的技术不断突破，但随着模型规模的扩大，计算成本也随之急剧上升。

为此，英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA，在大幅降低计算需求的情况下，还能保持有竞争力的性能。

SANA1.5在此基础上，聚焦了两个关键问题：

线性扩散Transformer的可扩展性如何？
在扩展大规模线性DiT时，怎样降低训练成本？

论文链接：https://arxiv.org/pdf/2501.18427

SANA 1.5：高效模型扩展三大创新

SANA 1.5在SANA 1.0（已被ICLR 2025接收）的基础上，有三项关键创新。

首先，研究者提出了一种高效的模型增长策略，使得SANA可以从1.6B（20层）扩展到4.8B（60层）参数，同时显著减少计算资源消耗，并结合了一种节省内存的8位优化器。

与传统的从头开始训练大模型不同，通过有策略地初始化额外模块，可以让大模型保留小模型的先验知识。与从头训练相比，这种方法能减少60%的训练时间。

其二，引入了模型深度剪枝技术，实现了高效的模型压缩。通过识别并保留关键的块，实现高效的模型压缩，然后通过微调快速恢复模型质量，实现灵活的模型配置。

其三，研究者提出了一种推理期间扩展策略，引入了重复采样策略，使得SANA在推理时通过计算而非参数扩展，使小模型也能达到大模型的生成质量。

通过生成多个样本，并利用基于视觉语言模型（VLM）的选择机制，将GenEval分数从0.72提升至0.80。

与从头开始训练大模型不同，研究者首先将一个包含N个Transformer层的基础模型扩展到N+M层（在实验中，N=20，M=40），同时保留其学到的知识。

在推理阶段，采用两种互补的方法，实现高效部署：

模型深度剪枝机制：识别并保留关键的Transformer块，从而在小的微调成本下，实现灵活的模型配置。
推理时扩展策略：借助重复采样和VLM引导选择，在计算资源和模型容量之间权衡。

同时，内存高效CAME-8bit优化器让单个消费级GPU上微调十亿级别的模型成为可能。

下图展示了这些组件如何在不同的计算资源预算下协同工作，实现高效扩展。

模型增长

研究者提出一种高效的模型增长策略，目的是对预训练的DiT模型进行扩展，把它从层增加到+层，同时保留模型已经学到的知识。

研究过程中，探索了三种初始化策略，最终选定部分保留初始化方法。这是因为该方法既简单又稳定。

在这个策略里，预训练的N层继续发挥特征提取的作用，而新增加的M层一开始是随机初始化，从恒等映射起步，慢慢学习优化特征表示。

实验结果显示，与循环扩展和块扩展策略相比，这种部分保留初始化方法在训练时的动态表现最为稳定。

模型剪枝

本文提出了一种模型深度剪枝方法，能高效地将大模型压缩成各种较小的配置，同时保持模型质量。

受Minitron启发，通过输入输出相似性模式分析块的重要性：

这里的表示第i个transformer的第t个token。

模型的头部和尾部块的重要性较高，而中间层的输入和输出特征相似性较高，表明这些层主要用于逐步优化生成的结果。根据排序后的块重要性，对transformer块进行剪枝。

剪枝会逐步削弱高频细节，因为，在剪枝后进一步微调模型，以弥补信息损失。

使用与大模型相同的训练损失来监督剪枝后的模型。剪枝模型的适配过程非常简单，仅需100步微调，剪枝后的1.6B参数模型就能达到与完整的4.8B参数模型相近的质量，并且优于SANA 1.0的1.6B模型。

推理时扩展

SANA 1.5经过充分训练，在高效扩展的基础上，生成能力有了显著提升。受LLM推理时扩展的启发，研究者也想通过这种方式，让SANA 1.5表现得更好。

对SANA和很多扩散模型来说，增加去噪步数是一种常见的推理时扩展方法。但实际上，这个方法不太理想。一方面，新增的去噪步骤没办法修正之前出现的错误；另一方面，生成质量很快就会达到瓶颈。

相较而言，增加采样次数是更有潜力的方向。

研究者用视觉语言模型（VLM）来判断生成图像和文本提示是否匹配。他们以NVILA-2B为基础模型，专门制作了一个数据集对其进行微调。

微调后的VLM能自动比较并评价生成的图像，经过多轮筛选，选出排名top-N的候选图像。这不仅确保了评选结果的可靠性，还能有效过滤与文本提示不匹配的图像。

模型增长、模型深度剪枝和推理扩展，构成了一个高效的模型扩展框架。三种方法协同配合，证明了精心设计的优化策略，远比单纯增加参数更有效。

模型增长策略探索了更大的优化空间，挖掘出更优质的特征表示。
模型深度剪枝精准识别并保留了关键特征，从而实现高效部署。
推理时间扩展表明，当模型容量有限时，借助额外的推理时间和计算资源，能让模型达到与大模型相似甚至更好的效果。

为了实现大模型的高效训练与微调，研究者对CAME进行扩展，引入按块8位量化，从而实现CAME-8bit优化器。

CAME-8bit相比AdamW-32bit减少了约8倍的内存使用，同时保持训练的稳定性。

该优化器不仅在预训练阶段效果显著，在单GPU微调场景中更是意义非凡。用RTX 4090这样的消费级GPU，就能轻松微调SANA 4.8B。

研究揭示了高效扩展不仅仅依赖于增加模型容量。通过充分利用小模型的知识，并设计模型的增长-剪枝，更高的生成质量并不一定需要更大的模型。

SANA 1.5 评估结果

实验表明，SANA 1.5的训练收敛速度比传统方法（扩大规模并从头开始训练）快2.5倍。

训练扩展策略将GenEval分数从0.66提升至0.72，并通过推理扩展将其进一步提高至0.80，在GenEval基准测试中达到了最先进的性能。

模型增长

将SANA-4.8B与当前最先进的文本生成图像方法进行了比较，结果如表所示。

从SANA-1.6B到4.8B的扩展带来了显著的改进：GenEval得分提升0.06（从0.66增加到0.72），FID降低0.34（从5.76降至5.42），DPG得分提升0.2（从84.8增加到85.0）。

和当前最先进的方法相比，SANA-4.8B模型的参数数量少很多，却能达到和大模型一样甚至更好的效果。

SANA-4.8B的GenEval得分为0.72，接近Playground v3的0.76。

在运行速度上，SANA-4.8B的延迟比FLUX-dev（23.0秒）低5.5倍；吞吐量为0.26样本/秒，是FLUX-dev（0.04样本/秒）的6.5倍，这使得SANA-4.8B在实际应用中更具优势。

模型剪枝

为了和SANA 1.0（1.6B）公平比较，此次训练的SANA 1.5（4.8B）模型，没有用高质量数据做监督微调。

所有结果都是针对512×512尺寸的图像评估得出的。经过修剪和微调的模型，仅用较低的计算成本，得分就达到了0.672，超过了从头训练模型的0.664。

推理时扩展

将推理扩展应用于SANA 1.5（4.8B）模型，并在GenEval基准上与其他大型图像生成模型进行了比较。

通过从2048张生成的图像中选择样本，经过推理扩展的模型在整体准确率上比单张图像生成提高了8%，在「颜色」「位置」和「归属」子任务上提升明显。

不仅如此，借助推理时扩展，SANA 1.5（4.8B）模型的整体准确率比Playground v3 (24B）高4%。

结果表明，即使模型容量有限，提高推理效率，也能提升模型生成图像的质量和准确性。

SANA：超高效文生图

在这里介绍一下之前的SANA工作。

SANA是一个超高效的文本生成图像框架，能生成高达4096×4096分辨率的图像，不仅画质清晰，还能让图像和输入文本精准匹配，而且生成速度超快，在笔记本电脑的GPU上就能运行。

SANA为何如此强大？这得益于它的创新设计：

深度压缩自动编码器：传统自动编码器压缩图像的能力有限，一般只能压缩8倍。而SANA的自动编码器能达到32倍压缩，大大减少了潜在tokens数量，计算效率也就更高了。
线性DiT：SANA用线性注意力替换了DiT中的标准注意力。在处理高分辨率图像时，速度更快，还不会降低图像质量。
仅解码文本编码器：SANA不用T5做文本编码器了，而是采用现代化的小型仅解码大模型。同时，通过上下文学习，设计出更贴合实际需求的指令，让生成的图像和输入文本对应得更好。
高效训练与采样：SANA提出了Flow-DPM-Solver方法，减少了采样步骤。再配合高效的字幕标注与选取，让模型更快收敛。

经过这些优化，SANA-0.6B表现十分出色。

它生成图像的质量和像Flux-12B这样的现代大型扩散模型差不多，但模型体积缩小了20倍，数据处理能力却提升了100倍以上。

SANA-0.6B运行要求不高，在只有16GB显存的笔记本GPU上就能运行，生成一张1024×1024分辨率的图像，用时不到1秒。

这意味着，创作者们用普通的笔记本电脑，就能轻松制作高质量图像，大大降低了内容创作的成本。

研究者提出新的深度压缩自动编码器，将压缩比例提升到32倍，和压缩比例为8倍的自动编码器相比，F32自动编码器生成的潜在tokens减少了16倍。

这一改进对于高效训练和超高分辨率图像生成，至关重要。

研究者提出一种全新的线性DiT，用线性注意力替代传统的二次复杂度注意力，将计算复杂度从原本的O(N²) 降低至O(N)。另一方面，在MLP层引入3×3深度可分卷积，增强潜在tokens的局部信息。

在生成效果上，线性注意力与传统注意力相当，在生成4K图像时，推理延迟降低了1.7倍。Mix-FFN结构让模型无需位置编码，也能生成高质量图像，这让它成为首个无需位置嵌入的DiT变体。

在文本编码器的选择上，研究者选用了仅解码的小型大语言模型Gemma，以此提升对提示词的理解与推理能力。相较于CLIP和T5，Gemma在文本理解和指令执行方面表现更为出色。

为充分发挥Gemma的优势，研究者优化训练稳定性，设计复杂人类指令，借助Gemma的上下文学习能力，进一步提高了图像与文本的匹配质量。

研究者提出一种自动标注与训练策略，借助多个视觉语言模型（VLM）生成多样化的重新描述文本。然后，运用基于CLIPScore的策略，筛选出CLIPScore较高的描述，以此增强模型的收敛性和对齐效果。

在推理环节，相较于Flow-Euler-Solver，Flow-DPM-Solver将推理步骤从28-50步缩减至14-20步，不仅提升了速度，生成效果也更为出色。

参考资料：

https://huggingface.co/papers/2501.18427

https://x.com/xieenze_jr/status/1885510823767875799

https://nvlabs.github.io/SANA/

DeepSeek6000亿美元震撼！德媒：中国成就来自美制裁

DeepSeek6000亿美元震撼！德媒：中国成就来自美制裁

人猿星球观察 2025-02-05 12:06:26

失能、荒唐的董事会，垄断巨头英特尔是如何自掘坟墓的？

失能、荒唐的董事会，垄断巨头英特尔是如何自掘坟墓的？

钛媒体APP 2025-02-07 12:22:13

继谷歌英伟达后，英特尔也将被中方调查，特朗普这下头疼了

继谷歌英伟达后，英特尔也将被中方调查，特朗普这下头疼了

皖北军哥 2025-02-06 14:20:03

外媒报道：继英伟达、谷歌之后，中国考虑对英特尔展开新的调查！

外媒报道：继英伟达、谷歌之后，中国考虑对英特尔展开新的调查！

王爷说图表 2025-02-05 21:13:17

机器人策略学习的Game Changer？伯克利提出Body Transformer

机器人策略学习的Game Changer？伯克利提出Body Transformer

机器之心Pro 2024-08-19 14:32:39

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

机器之心Pro 2025-02-07 14:49:06

Recraft爆红，我们和创始人聊了聊

Recraft爆红，我们和创始人聊了聊

钛媒体APP 2025-01-08 17:09:32

无数据不智能，数据闭环重塑高阶智驾未来

无数据不智能，数据闭环重塑高阶智驾未来

钛媒体APP 2024-10-11 10:25:11

刷新所有历史记录，打爆了空头！上周散户疯狂抄底美股，尤其是英伟达

刷新所有历史记录，打爆了空头！上周散户疯狂抄底美股，尤其是英伟达

华尔街见闻官方 2025-02-07 13:35:45

AI作图，拯救“职场牛马”

钛媒体APP 2025-01-17 13:25:28

男子用不锈钢打造一艘航母模型，网友：有瑕疵，寄过来我给你改进一下

男子用不锈钢打造一艘航母模型，网友：有瑕疵，寄过来我给你改进一下

童话鹤壁 2025-02-04 18:51:55

高速上看见黑烟直冒，一看远处框架，这就是为啥不买新能源的原因

高速上看见黑烟直冒，一看远处框架，这就是为啥不买新能源的原因

离松爱生活 2025-02-04 20:42:54

MIT开发高效算法大幅降低强化学习训练成本

MIT开发高效算法大幅降低强化学习训练成本

DeepTech深科技 2024-11-28 18:01:36

媒体：俄乌双方现极为罕见现象泽连斯基离下课不远了

媒体：俄乌双方现极为罕见现象泽连斯基离下课不远了

新民周刊 2025-02-07 10:17:10

妻子过年做了一桌的好菜好饭，丈夫一生气直接把桌子掀了

妻子过年做了一桌的好菜好饭，丈夫一生气直接把桌子掀了

动态新闻 2025-02-06 19:33:52

特朗普为何热衷关税战？第二条指令已发出，对华给出异常待遇

特朗普为何热衷关税战？第二条指令已发出，对华给出异常待遇

张殿成 2025-02-05 10:51:28

辉瑞被“B7-H4”绊了一跤

虎嗅APP 2025-02-07 15:29:05

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

伊尔76与运20参数对比：深入剖析两款运输机的性能差异

伊尔76与运20参数对比：深入剖析两款运输机的性能差异

猪猪爱影视 2025-02-03 04:47:16

特朗普指令马斯克，务必安全接回滞留宇航员

特朗普指令马斯克，务必安全接回滞留宇航员

宇宙V奇闻 2025-02-06 19:13:24

火星好奇号拍摄迷人4K图像，探索神秘表面！

火星好奇号拍摄迷人4K图像，探索神秘表面！

零度星系 2025-02-06 00:49:02

特朗普签署指令，对伊极限施压！伊朗记吃不记打，跪地求饶也没用

特朗普签署指令，对伊极限施压！伊朗记吃不记打，跪地求饶也没用

石宏主编 2025-02-06 13:54:42

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

机器之心Pro 2025-02-01 15:01:13

网传江苏某地多辆德系车被砸，车内塞入抗战胜利宣传单

网传江苏某地多辆德系车被砸，车内塞入抗战胜利宣传单

老赵观天下 2025-02-06 21:41:00

美国国内传来噩耗！特朗情绪失控，白宫撤销指令，信号传遍全世界

美国国内传来噩耗！特朗情绪失控，白宫撤销指令，信号传遍全世界

纵览盘观 2025-02-06 12:07:25

开车回老家被鞭炮引燃，烧成框架变网红了，这个年过得真刺激

开车回老家被鞭炮引燃，烧成框架变网红了，这个年过得真刺激

云邸光看点 2025-02-06 09:58:40

核动力全电推进，005航母电磁弹射六代机遐想，模型跟虫子似的！

核动力全电推进，005航母电磁弹射六代机遐想，模型跟虫子似的！

发怒的福猫 2025-02-07 11:48:01

婚礼现场犹如仇家火拼

南北分界线 2025-02-06 23:36:37

核潜艇之父黄旭华逝世曾30年不回家被母亲当"不孝子"

核潜艇之父黄旭华逝世曾30年不回家被母亲当"不孝子"

上游新闻 2025-02-07 13:11:07

谷歌最强模型Gemini 2.0 Pro第一波网友测评来了

谷歌最强模型Gemini 2.0 Pro第一波网友测评来了

量子位 2025-02-07 15:31:40

一研究因“数据错误”被撤稿后，才被发现是抄袭了他人的硕士论文

一研究因“数据错误”被撤稿后，才被发现是抄袭了他人的硕士论文

医咖会 2025-02-06 19:35:37

成功“牵手”三大运营商，DeepSeek让国产AI产业更“deep seek”

成功“牵手”三大运营商，DeepSeek让国产AI产业更“deep seek”

通信世界 2025-02-06 20:07:17

吴凯：2025是布局可控核聚变的最佳时点吗？| 钛资本新能源组

吴凯：2025是布局可控核聚变的最佳时点吗？| 钛资本新能源组

钛媒体APP 2025-02-07 10:46:21

华为DeepSeek强强联手，英伟达股价一周缩水3万亿

华为DeepSeek强强联手，英伟达股价一周缩水3万亿

袁湛 2025-02-06 05:56:12

MIT开发新方法，无需从头训练机器人即可执行复杂任务

MIT开发新方法，无需从头训练机器人即可执行复杂任务

DeepTech深科技 2024-11-05 18:05:35

我们为什么要用GPU“暴力”找质数？

我们为什么要用GPU“暴力”找质数？

量子位 2024-12-17 16:42:34

中国主导身体，英伟达要做大脑，特斯拉“做整合”——大摩详解人形机器人100强公司！

中国主导身体，英伟达要做大脑，特斯拉“做整合”——大摩详解人形机器人100强公司！

华尔街见闻官方 2025-02-07 11:42:17

AI也会“喵喵叫”：MIT团队让机器学会模仿声音

AI也会“喵喵叫”：MIT团队让机器学会模仿声音

DeepTech深科技 2025-01-16 20:13:08

挑战最快AI助手！这款聊天机器人每秒能响应1000个tokens

挑战最快AI助手！这款聊天机器人每秒能响应1000个tokens

财联社 2025-02-07 15:51:08

RTX 50系显卡发售！价格翻倍一卡难求，英伟达遭遇产能危机？

RTX 50系显卡发售！价格翻倍一卡难求，英伟达遭遇产能危机？

雷科技 2025-02-07 16:34:19