斯坦福吴佳俊扩散自蒸馏来了！突破文生图身份保留挑战

机器之心报道

机器之心编辑部

艺术家们该高兴了。

近年来，文本到图像扩散模型为图像合成树立了新标准，现在模型可根据文本提示生成高质量、多样化的图像。然而，尽管这些模型从文本生成图像的效果令人印象深刻，但它们往往无法提供精确的控制、可编辑性和一致性 —— 而这些特性对于实际应用至关重要。

单靠文本输入可能不足以传达图像细节，中间出现的变化很多情况下与用户的意图不完全一致。

然而，保持主体身份的一致性面临很大的挑战。如下图所示，在「结构 - 保留编辑」中，目标和源图像共享总体布局，但可能在风格、纹理或其他局部特征上有所不同；在「身份 - 保留编辑」中，图像结构可能发生大规模变化，但资产在目标和源图像之间可识别为相同。

对于结构 - 保留编辑，添加层（如 ControlNet ）可引入空间条件控制，但仅限于结构指导，无法解决跨不同上下文的一致身份适应问题。对于身份保留编辑，DreamBooth 和 LoRA 等微调方法可以使用一些参考样本来提高一致性，但耗时且计算密集，需要对每个参考进行训练。零样本替代（如 IP-Adapter 和 InstantID ）提供了更快的解决方案，无需重新训练，但无法提供所需的一致性和定制水平；IP-Adapter 缺乏完全的定制功能，而 InstantID 仅限于面部身份。

在新鲜出炉的一项研究中，斯坦福大学的吴佳俊等研究者提出了一种名为扩散自蒸馏（Diffusion Self-Distillation，DSD）的新方法，该方法使用预训练的文本到图像模型来生成它自己的数据集，并用于文本条件的图像到图像任务。

论文标题：Diffusion Self-Distillation for Zero-Shot Customized Image Generation
论文链接：https://arxiv.org/pdf/2411.18616
项目主页：https://primecai.github.io/dsd/

首先利用文本到图像扩散模型的上下文生成能力来创建图像网格，并在视觉语言模型的帮助下策划一个大型配对数据集。然后，使用精选的配对数据集将文本到图像模型微调为文本 + 图像到图像模型。该研究证明了扩散自蒸馏法优于现有的零样本方法，并且在广泛的身份保留生成任务上与每个实例的微调技术具有竞争力，而无需测试时间优化。

论文作者之一、斯坦福大学计算机科学博士生蔡盛曲表示：DSD 重新定义了使用 FLUX 进行零样本自定义图像生成，DSD 类似于 DreamBooth，是零样本、无需训练的。它适用于任何输入主题和所需的上下文角色一致性，项目、资产适应，场景重照明等等。它甚至可以创建漫画，而无需任何微调或训练个性化模型！

以下是一些示例展示：

角色保留：

实物保留：

创建漫画：

扩散自蒸馏

最近的文本到图像生成模型具有令人惊讶的能力，可以生成上下文一致的图像网格（见图 2 左）。受此启发，研究者开发了一种零样本适应网络，它能快速、多样、高质量地生成图像，并能保留身份，即以参考图像为条件生成一致的图像。

为此，研究者首先使用预训练的文本到图像扩散模型、大语言模型 (LLM) 和视觉语言模型 (VLM) 生成并整理出具有所需一致性的图像集（3.1 节）。

然后，研究者利用这些一致的图像集对相同的预训练扩散模型进行微调，并采用新提出的并行处理架构（3.2 节）来创建条件模型。

通过这种方法，扩散自蒸馏以监督的方式将预训练好的文本到图像扩散模型微调为零样本定制图像生成器。

生成成对数据集

为了创建用于监督扩散自蒸馏训练的成对数据集，研究者利用预训练文本到图像扩散模型的新兴多图像生成功能，生成由 LLM 生成的提示（第 3.1.2 节）所创建的潜在一致的普通图像（第 3.1.1 节）。然后，研究者使用 VLM 对这些普通图像样本进行整理，获得具有所需身份一致性的干净图像集（第 3.1.3 节）。数据生成和整理流程如图 2 左所示。

并行处理架构

研究者希望有一个适用于通用图像到图像任务的条件架构，包括保留结构的转换以及保留概念 / 特征但不保留图像结构的转换。这是一个具有挑战性的问题，因为它可能需要在不保证空间一致性的情况下传输精细细节。

虽然 ControlNet 架构在结构保留编辑（如深度 - 图像或分割图 - 图像）方面表现出色，但在更复杂的身份保留编辑（源图像和目标图像不是像素对齐的）中，它却难以保留细节。

另一方面，IP-Adapter 可以从输入图像中提取某些概念，比如风格。但它仍然严重依赖于特定任务的图像编码器，往往无法保留更复杂的概念和特征。

研究者从多视角和视频扩散模型的成功经验中汲取灵感，提出了一种简单而有效的方法，将普通扩散 transformer 模型扩展为图像条件扩散模型。

具体来说，他们将输入图像视为视频的第一帧，并生成双帧视频作为输出。最终损失是通过双帧视频计算得出的，为第一帧建立了一个身份映射，为第二帧建立了一个条件编辑目标。

如图 2 右所示，本文的架构设计可实现两帧之间的有效信息交换，使模型能够捕捉复杂的语义并执行复杂的编辑，因此可用于通用的图像到图像转换任务。

实验

在实验中，研究者使用了 FLUX1.0 DEV 作为教师模型和学生模型，实现了自蒸馏。生成提示使用的是 GPT-4o，数据集整理和字幕制作使用 Gemini-1.5。他们在 8 个英伟达 H100 80GB GPU 上训练所有模型，有效批大小为 160，迭代次数为 100k，使用 AdamW 优化器，学习率为 10^-4。这里的并行处理架构在基础模型上使用了秩为 512 的 LoRA。

定性评估

下图 4 展示了定性对比结果，表明本文的模型在主体适应性和概念一致性方面明显优于所有基线模型，同时在输出结果中表现出出色的提示对齐性和多样性。文本反转法作为一种早期的概念提取方法，只能从输入图像中捕捉到模糊的语义，因此不适合需要精确主体适应的零样本定制任务。

值得注意的是，IP-Adapter+ 使用了更强的输入图像编码器，加剧了这一问题，导致输出的多样性和适应性降低。相比之下，本文的方法既能有效地保留主体的核心身份，又能进行多样化的、与上下文相适应的转换。如图 5 所示，「扩散自蒸馏」技术具有显著的多功能性，能熟练处理不同目标（人物、物体等）和风格（逼真、动画等）的各种定制目标。此外，还能很好地概括各种提示，包括类似于 InstructPix2Pix 的指令，凸显了其在各种定制任务中的鲁棒性和适应性。

定量评估

表 1 展示了与基线的定量对比。本文的方法在概念保留和提示跟随方面都取得了最佳的整体性能，而在前者方面仅逊于 IP-Adapter+ （主要是因为「复制粘贴」效应），在后者方面则逊于按实例调整的 DreamBooth-LoRA。我们注意到，DreamBench++ 的概念保留评估仍然偏向于「复制粘贴」效应，尤其是在更具挑战性和多样性的提示上。例如，IP-Adapter 系列之所以在概念保留方面表现出色，主要是因为它们具有很强的「复制粘贴」效果，即在复制输入图像时不考虑提示中的相关基本变化。

这在一定程度上也可以从它们表现不佳的提示跟随得分中看出来，它们偏向于参考输入，而不考虑输入提示。因此，研究者也提出了「去偏见」版 GPT 分数，它就像告诉 GPT 如果生成的图像类似于参考图像的直接拷贝就进行惩罚一样简单。可以注意到，IP-Adaper+ 的优势已不复存在。总体来说，扩散自蒸馏是其中表现最好的模型。

消融实验

左图是基础模型的上下文采样能力与 LoRA 过拟合模型进行了比较。研究者观察到，虽然将 LoRA 应用于基础模型可以增加输出为一致网格的可能性，但它可能会对输出多样性产生不利影响。右图将本文提出的架构设计与原始条件模型（通过添加一些输入通道）、ControlNet 和 IP-Adapter 进行了比较，表明本文架构可以更好地学习输入概念和身份。实验还证明了本文架构可以有效地扩展到类似于 ControlNet 的深度条件图像生成。