生成与理解相互促进!华科字节Liquid,揭示统一多模态模型尺度规律

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

为此，华中科技大学、字节跳动与香港大学联合团队提出了极简的统一多模态生成框架 ——Liquid。Liquid 摒弃了传统的外部视觉模块，转而采用 VQGAN 作为图像分词器，将图像编码为离散的视觉 token，使其与文本 token 共享同一词表空间，使 LLM 无需任何结构修改即可 “原生” 掌握视觉生成与理解能力，彻底摆脱对外部视觉组件的依赖。研究团队首次揭示了统一表征下的多模态能力遵循 LLM 的尺度定律，且视觉生成与理解任务可双向互促，这一发现为通用多模态智能的架构设计提供了新的范式。

论文标题：Liquid: Language Models are Scalable and Unified Multi-modal Generators
论文链接：https://arxiv.org/abs/2412.04332
主页链接：https://foundationvision.github.io/Liquid/

背景与贡献

传统多模态大模型（MLLM）普遍依赖外部视觉模块（如 CLIP、扩散模型）作为编码器或解码器，需通过特征投影层对齐视觉与文本特征，导致架构复杂化。近期一些研究尝试采用 VQVAE 替代传统模块，通过将原始像素映射为离散编码，实现图像与文本的统一表征。离散视觉 token 可视为一种新 “语言”，将其扩展至 LLM 的词表中，使得视觉与文本能够以相同的 “下一 token 预测” 范式联合建模，无缝融合多模态信息。尽管早期工作（如 LWM、Chameleon）验证了该范式的潜力，但其从头训练的方式计算成本高昂，而后续工作引入扩散模型（如 Transfusion、Show-o）又导致训练目标割裂，制约了模型效率与灵活性。

本文提出 Liquid，一种将现有 LLM 直接扩展为统一多模态大模型的框架。Liquid 通过 VQVAE 将图像编码为离散视觉 token，使图像与文本共享同一词汇空间，无需修改 LLM 结构即可实现视觉理解与生成。研究发现，现有 LLM 因其强大的语义理解与生成能力，是理想的多模态扩展起点。相比从头训练的 Chameleon，Liquid 节省100 倍训练成本，同时实现更强的多模态能力。团队进一步探索了从 0.5B 到 32B 六种不同规模 LLM 的扩展性能，覆盖多种模型家族，并揭示三大核心特性：

a. 尺度规律统一性：视觉生成任务中验证损失与生成质量遵循与语言任务一致的缩放规律；

b. 规模化解耦效应：多模态训练下受损的语言能力随模型规模扩大而逐渐恢复，表明大模型具备多任务无缝处理能力；

c. 跨任务互惠性：视觉理解与生成任务通过共享表征空间实现双向促进，验证统一建模的联合优化优势。

极简多模态架构 Liquid

Liquid 采用了将图像与文本以完全相同的方式对待的一致处理框架。基于 VQVAE 的图像分词器将输入图像转换为离散编码，这些编码与文本编码共享相同的词汇表和嵌入空间。图像 token 与文本 token 混合后，输入到 LLM 中，并以 “next token prediction” 的形式进行训练。

图像分词器：对于图像分词器采用与 Chameleon 相同的 VQGAN 作为图像分词器，将 512×512 的图像编码为 1024 个离散 token，嵌入到大小为 8192 的码本中。这些离散图像 token 被附加到 BPE 分词器生成的文本码本中，扩展了 LLM 的词表，使其语言空间升级为包含视觉与语言元素的多模态空间。

架构设计：Liquid 基于现有 LLM 构建，本文以 GEMMA-7B 为基础模型，验证其在多模态理解、图像生成及纯文本任务中的性能。通过对 LLAMA-3、GEMMA-2 和 Qwen2.5 系列模型（规模从 0.5B 到 32B）的缩放实验，全面研究了其多模态扩展行为。Liquid 未对 LLM 结构进行任何修改，仅添加了 8192 个可学习的图像 token 嵌入，保留了原始的 “下一 token 预测” 训练目标及交叉熵损失。

数据准备：为保留现有 LLM 的语言能力，从公开数据集中采样了 30M 文本数据（包括 DCLM、SlimPajama 和 Starcoderdata），总计约 600 亿文本 token。对于图文对数据，使用 JourneyDB 和内部图文数据，构建了 30M 高质量图像数据，总计 300 亿图像 token。所有数据用于混合多模态预训练，使模型快速获得图像生成能力的同时保留语言能力。此外，其中 20% 的图文数据用于训练图像描述任务，以增强视觉理解能力。

训练流程：使用总计 60M 数据进行继续训练。对于多模态训练数据，输入格式定义为：[bos] {text token} [boi] {image token} [eoi][eos] ，其中 [bos] 和 [eos] 为原始文本分词器的序列开始与结束标记，[boi] 和 [eoi] 为新增的图像 token 起始与结束标记。在缩放实验中，针对每个模型规模，分别使用 30M 纯文本数据、30M 文本到图像数据及 60M 混合数据训练三个独立版本，并评估其在一系列任务中的性能。

统一多模态模型尺度规律探索

文章探索了规模从 0.5B 到 32B 的 6 种 LLM 在混合模态训练后的视觉生成性能。随着模型规模和训练迭代次数的增加，验证损失平稳下降，而 token 准确率和 VQA 分数持续上升。在相同的训练 FLOPs 下，较小模型能够更快地达到较低的验证损失和较高的 VQA 分数，但较大模型最终能够实现更高的评估指标。这可能是因为较小模型能够快速完成更多训练步骤，从而更快地适应视觉信息，但其上限较低，难以实现高质量的视觉生成结果。

为了探究视觉生成能力是否影响语言能力，文章比较了在不同规模下，使用 30M 纯语言数据训练和 60M 多模态混合数据训练的模型在语言任务上的表现。较小模型在混合任务训练时存在权衡现象：多模态混合训练后 1B 模型语言任务下降 8.8%，7B 模型下降 1.9%。然而，随着模型规模的增加，这种权衡逐渐消失，32B 模型实现几乎零冲突共生（语言能力保留率 99.2%），这表明较大模型具备足够的能力，能够同时处理视觉和语言空间的生成任务。

理解与生成相互促进

为探究 Liquid 统一范式中理解与生成任务的交互关系，研究团队设计了一组消融实验：以 10M 纯文本 + 10M 视觉生成 + 10M 视觉理解数据（总计 30M）作为基线，分别额外增加 10M 生成或理解数据进行对比训练。实验发现，增加理解数据可使生成任务性能显著提升，反之增加生成数据亦能增强理解能力。这一突破性现象表明，当视觉理解与生成共享统一模态空间时，两者的优化目标具备同源性—— 均依赖语言与视觉信息的深度对齐与交互，从而形成跨任务协同效应。该发现不仅验证了多模态任务联合优化的可行性，更揭示了 LLM 作为通用生成器的本质潜力：单一模态空间下的跨任务互惠可大幅降低训练成本，推动多模态能力高效进化。

模型性能

视觉生成实验效果

在 GenAI-Bench 评测中，Liquid 在基础与高级文本提示下的综合得分均超越所有自回归模型，其生成的图像与文本语义一致性显著领先。更值得关注的是，Liquid 以远少于扩散模型的数据量（如 SD v2.1、SD-XL），实现了与之匹敌甚至更优的性能，验证了基于 LLM 的跨模态学习在语义关联捕捉与训练效率上的双重优势。

在 MJHQ-30K 评测中，Liquid 以 FID=5.47 刷新自回归模型上限，不仅大幅领先同类方法，更超越多数知名扩散模型（仅次 Playground v2.5），证明 LLM 在图像美学质量上可与顶尖生成模型抗衡。

语言能力保留

在一些经典的语言能力评估 benchmark 上，Liquid 在大多数任务中超越了成熟的 LLAMA2 和经过大规模混合预训练的多模态语言模型 Chameleon，展示了其未退化的语言能力。与 Chameleon 相比，Liquid 基于已具备优秀语言能力的丰富现有 LLM 进行训练，在扩展视觉生成与理解能力的同时，成功保留了语言能力，证明 Liquid 可以将视觉生成与理解能力扩展到任何结构和规模的 LLM 中。

视觉理解能力

在视觉理解任务中，Liquid 性能显著超越采用标准 VQVAE 的同类模型（如 LWM、Chameleon、Show-o）。尽管其表现仍略逊于依赖连续视觉 token 的主流模型（如 LLaVA），但研究团队通过引入 Unitok 图像分词器（融入图文特征对齐训练，* 标结果），使模型理解能力大幅提升，逼近 LLaVA 水平。这验证了基于离散编码的多模态大模型具有摆脱 CLIP 编码器的潜力。

总结

综上所述，本文提出了 Liquid，一种极简的统一多模态生成与理解任务框架。与依赖外部视觉模块的传统方法相比，Liquid 通过视觉离散编码直接复用现有大语言模型处理视觉信息，实现了图像生成与理解的无缝融合。实验验证了语言模型在视觉生成任务中可以在保留语言能力的情况下媲美主流扩散模型，并且发现多模态任务的统一带来的语言和视觉能力的削弱，会随着模型规模的增加而逐渐消失。此外，原文还揭示了多模态任务间的互惠关系和更多的尺度现象，为大规模预训练提供了新的思路。