新智元报道

编辑:Aeneas 好困

【新智元导读】DeepSeek除夕又放出重磅炸弹:多模态大一统开源模型Janus-Pro系列上线!其中,1.5B模型仅用了128颗英伟达A100训练一周,而7B也只是翻了个倍。

全世界瞩目之际,DeepSeek在除夕又有了新的动作。

就在昨夜,DeepSeek正式发布了集理解与生成于一体的多模态大模型Janus-Pro。

目前,相关代码和模型已完全开源。


论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

开源项目:https://github.com/deepseek-ai/Janus

Janus-Pro采用了创新性自回归框架,并实现了多模态理解与生成的统一,是对 去年发布的前代模型Janus的全面升级。

它通过将视觉编码解耦为独立的通道,克服了先前方法的局限性,同时仍然使用单一且统一的Transformer架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成方面的固有角色冲突,还显著提升了框架的灵活性。

结果显示,升级后的Janus-Pro在多模态理解和文生图能力上都实现了显著突破,同时文生图的稳定性也得到了提升。


与此同时,DeepSeek在训练上一如既往地只用了非常少的算力——

1.5B和7B这两款模型,分别在配备16/32个计算节点的集群上进行,每个节点装配8张Nvidia A100(40GB)GPU,总训练时间约为7/14天。

网友实测

对于DeepSeek的又一个暴击,外媒VentureBeat评论道:「Janus-Pro-7B的发布,让它的影响力再次得到扩大的同时,强化了这一叙事——DeepSeek作为创新者,已经颠覆了AI世界的既定秩序。」

网友们纷纷预言,DeepSeek Janus-Pro-7B模型对整个AI世界生态系统来说,又将造成巨震。


甚至1B模型可以直接在WebGPU的浏览器中就可以运行。本地运行模型,只需访问网站即可!


但在实际效果上,很多网友实测发现Janus-Pro的生图效果并不总是很理想。




左右滑动查看

当然,也有实测效果比较好的例子。




左右滑动查看

类似的,在图像理解方面,表现也是有好有坏。



完整论文解读

具体而言,Janus-Pro在以下三个方面进行了改进:(1)采用了优化后的训练策略,(2)扩充了训练数据集,以及(3)实现了模型规模的进一步扩展。

Janus作为一个创新性模型,最初在1B参数规模上完成了验证。但由于训练数据量受限且模型容量相对不足,导致它存在一些局限性,主要表现在短提示词图像生成效果欠佳以及文本生图质量不够稳定等方面。

针对这些问题,DeepSeek团队推出了升级版本Janus-Pro,在训练策略、数据规模和模型容量三个维度上都实现了重要突破。

Janus-Pro 系列提供了1B和7B两种参数规模的模型,充分展示了视觉编解码方法的可扩展性。


多个基准测试的评估结果表明,Janus-Pro在多模态理解能力和文本生图的指令执行性能方面都取得了显著进展。

具体而言,Janus-Pro-7B在多模态理解基准测试MMBench上达到了79.2的评分,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)在内的现有最优统一多模态模型。

在GenEval文本生图指令执行能力排行榜上,Janus-Pro-7B获得了0.80的高分,显著优于Janus(0.61)、DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)的表现。


模型架构

Janus-Pro架构的核心设计理念是,实现多模态理解和生成任务中视觉编码的解耦。与Janus保持一致。

具体而言,研究者采用独立的编码方法将原始输入转换为特征,随后通过统一的自回归Transformer进行处理。


Janus-Pro的架构

在多模态理解方面,研究者采用SigLIP编码器,从图像中提取高维语义特征。

这些特征首先从二维网格结构展平为一维序列,然后通过理解适配器将图像特征映射到大语言模型的输入空间。

在视觉生成任务中,他们使用VQ分词器将图像转换为离散ID序列。将这些ID序列展平为一维后,通过生成适配器将对应的码本嵌入映射至大语言模型的输入空间。

随后,他们将上述特征序列整合为统一的多模态特征序列,输入大语言模型进行处理。

除了利用大语言模型内置的预测头外,研究者还在视觉生成任务中引入了一个随机初始化的预测头用于图像预测。

整个模型采用自回归框架。

优化训练策略

Janus的前代版本采用了三阶段训练流程——

第一阶段专注于适配器和图像头的训练;第二阶段进行统一预训练,期间除理解编码器和生成编码器外的所有组件参数都会更新;第三阶段进行监督微调,在第二阶段基础上进一步解锁理解编码器的参数进行训练。

然而,这种训练策略存在某些问题。

在第二阶段中,Janus参照PixArt的方法,将文本生图能力的训练分为两个部分:首先使用ImageNet数据集进行训练,以图像类别名称作为提示词来生成图像,目的是构建像素依赖关系;其次使用标准文本生图数据进行训练。

在具体实施中,第二阶段将66.67%的文本生图训练步骤分配给了第一部分。

但通过深入实验,研究者发现这种策略效果欠佳,且计算效率较低。为此,他们实施了两项重要改进:

  • 阶段I延长训练时间:增加第一阶段的训练步骤,确保充分利用ImageNet数据集。研究表明,即使在大语言模型参数固定的情况下,模型也能有效建立像素依赖关系,并根据类别名称生成高质量图像。

  • 阶段II集中重点训练:在第二阶段中,摒弃了ImageNet数据,转而直接使用标准文本生图数据来训练模型,使其能够基于详细文本描述生成图像。这种优化策略使第二阶段能够更高效地利用文本生图数据,显著提升了训练效率和整体表现。

此外,研究者还对第三阶段监督微调过程中的数据配比进行了调整,将多模态数据、纯文本数据和文本生图数据的比例从7:3:10优化为5:1:4。

通过适度降低文本生图数据的占比,可以发现,这种调整既保持了强大的视觉生成能力,又提升了多模态理解性能。

数据Scaling

在多模态理解和视觉生成两个方面,团队显著扩充了Janus的训练数据规模:

• 多模态理解

在第二阶段预训练中,他们参考了DeepSeekVL2的方法,新增了约9000万个训练样本。这些样本包括图像描述数据集以及表格、图表和文档理解数据集。

在第三阶段监督微调中,他们进一步引入了DeepSeek-VL2的补充数据集,包括表情包理解、中文对话数据和对话体验优化数据集等。

这些数据的引入大幅提升了模型的综合能力,使其能够更好地处理多样化任务,并提供更优质的对话体验。

• 视觉生成

研究者发现,Janus早期版本使用的真实数据存在质量不高、噪声较大等问题,这往往导致文本生图过程不稳定,生成的图像美感欠佳。

为此,在 Janus-Pro 中,他们引入了约7200万个人工合成的高质量美学数据样本,使统一预训练阶段的真实数据与合成数据达到1:1的均衡比例。这些合成数据的提示词来源于公开资源。

实验结果表明,使用合成数据不仅加快了模型的收敛速度,还显著提升了文本生图的稳定性和图像的美学质量。

模型Scaling

Janus的前代版本通过1.5B参数规模的大语言模型,验证了视觉编码解耦方法的有效性。在Janus-Pro中,研究者将模型规模扩展至7B参数量。

研究发现,在采用更大规模大语言模型后,无论是多模态理解还是视觉生成任务的损失值收敛速度都较小规模模型有了显著提升。

这一结果进一步证实了该技术方案具有优秀的可扩展性。


Janus和Janus-Pro的超参数设置

对比SOTA

• 多模态理解性能

在表3中,研究者将本文提出的方法与当前最先进的统一模型和专用理解模型进行了对比。结果显示,Janus-Pro实现了整体最优性能。

这主要得益于在多模态理解和生成任务中实现了视觉编码的解耦,有效缓解了两项任务间的冲突。即便与参数规模显著更大的模型相比,Janus-Pro仍展现出强劲的竞争力。

例如,Janus-Pro-7B在除GQA外的所有基准测试中,都超越了TokenFlow-XL(13B)的表现。


• 视觉生成性能

研究者在GenEval和DPG-Bench两个基准上,评估了视觉生成性能。

如表4所示,Janus-Pro-7B在GenEval测试中达到了80.0%的整体准确率,优于所有现有的统一模型和专用生成模型,包括Transfusion(63.0%)、SD3-Medium(74.0%)和DALL-E 3(67.0%)。

这一结果充分证明了,这一方法具有更强的指令执行能力。


此外,如表5所示,Janus-Pro在DPG-Bench测试中获得了84.19分的优异成绩,领先于所有其他方法。

这表明Janus-Pro在执行复杂的文本生图指令方面具有卓越的表现。


定性分析

在图4中,研究者展示了多模态理解的测试结果。实验表明,Janus-Pro在处理不同场景下的输入时展现出卓越的理解能力,充分体现了其强大的性能优势。

在图4的下半部分,研究者展示了一系列文本生图的结果。

尽管输出分辨率仅为384×384,但Janus-Pro-7B生成的图像仍然展现出高度的真实感和丰富的细节表现。

特别是在处理具有想象力和创造性的场景时,Janus-Pro-7B能够准确理解提示词中的语义信息,并生成逻辑合理、内容连贯的图像。


然而,Janus-Pro当前仍然存在一些局限性。

在多模态理解方面,由于输入分辨率被限制在384×384,影响了模型在OCR等需要精细识别的任务上的表现。

在文本生图方面,较低的分辨率以及视觉Token编码器引入的重建损失,导致生成的图像虽然语义内容丰富,但在细节表现上仍有不足。

典型例子是当人脸区域在图像中占比较小时,往往会出现细节欠缺的情况。这些问题有望通过提升图像分辨率得到改善。

参考资料:

https://github.com/deepseek-ai/Janus


ad1 webp
ad2 webp
ad1 webp
ad2 webp