Sora之后，苹果视频生成大模型STIV，87亿参数一统T2V、TI2V任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

论文地址: https://arxiv.org/abs/2412.07730
Hugging Face link: https://huggingface.co/papers/2412.07730

OpenAI 的 Sora 公布了一天之后，在一篇由多位作者署名的论文《STIV: Scalable Text and Image Conditioned Video Generation》中，苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 8.7B 参数的支持文本、图像条件的视频生成模型。

近年来，视频生成领域取得了显著进展，尤其是基于 Diffusion Transformer (DiT) 架构的视频生成模型 Sora 的推出。尽管研究者已在如何将文本及其他条件融入 DiT 架构方面进行了广泛探索，如 PixArt-Alpha 使用跨注意力机制，SD3 将文本与噪声块拼接并通过 MMDiT 模块应用自注意力等，但纯文本驱动的视频生成（T2V）在生成连贯、真实视频方面仍面临挑战。为此，文本 - 图像到视频（TI2V）任务被提出，通过加入初始图像帧作为参考，提供了更具约束性的生成基础。

当前主要挑战在于如何将图像条件高效地融入 DiT 架构，同时在模型稳定性和大规模训练效率方面仍需创新。为解决这些问题，我们提出了一个全面、透明的白皮书，涵盖了模型结构，训练策略，数据和下游应用，统一了T2V和TI2V任务。

基于以上问题，该工作的贡献与亮点主要集中在：

提出 STIV 模型，实现 T2V 和 TI2V 任务的统一处理，并通过 JIT-CFG 显著提升生成质量；
系统性研究包括 T2I、T2V 和 TI2V 模型的架构设计、高效稳定的训练技术，以及渐进式训练策略；
模型易于训练且适配性强，可扩展至视频预测、帧插值和长视频生成等任务；
实验结果展示了 STIV 在 VBench 基准数据集上的优势，包括详细的消融实验和对比分析。

该研究不仅提升了视频生成质量，还为视频生成模型在未来多种应用场景中的推广奠定了坚实基础。

构建 STIV 的配方解析

基础模型架构

STIV 基于 PixArt-Alpha 架构，通过冻结的变分自编码器（VAE）将输入帧转换为时空潜变量，并使用可学习的 DiT 块进行处理。文本输入由 T5 分词器和内部训练的 CLIP 文本编码器处理。此外，该研究还对架构进行了以下优化：

时空注意力分解：采用分解的时空注意力机制，分别处理空间和时间维度的特征，这使得模型能够复用 T2I 模型的权重，同时降低了计算复杂度。
条件嵌入：通过对图像分辨率、裁剪坐标、采样间隔和帧数等元信息进行嵌入，并结合扩散步长和文本嵌入，生成一个统一的条件向量，应用于注意力层和前馈网络。
旋转位置编码（RoPE）：利用 RoPE 提升模型处理时空相对关系的能力，适配不同分辨率的生成任务。
流匹配目标：采用流匹配（Flow Matching）训练目标，以更优的条件最优传输策略替代传统扩散损失，提升生成质量。

模型扩展与训练优化

稳定训练策略：通过在注意力机制中应用 QK-Norm 和 sandwich-norm，以及对每层的多头注意力（MHA）和前馈网络（FFN）进行归一化，显著提升了模型训练稳定性。
高效训练改进：借鉴 MaskDiT 方法，对 50% 的空间 token 进行随机掩码处理以减少计算量，并切换优化器至 AdaFactor，同时使用梯度检查点技术显著降低内存需求，支持更大规模模型的训练。

融合图像条件的方法

简单的帧替换方法

在训练过程中，我们将第一个帧的噪声潜变量替换为图像条件的无噪声潜变量，然后将这些潜变量传递到 STIV 模块中，并屏蔽掉被替换帧的损失。在推理阶段，我们在每次扩散步骤中使用原始图像条件的无噪声潜变量作为第一个帧的潜变量。

帧替换策略为 STIV 的多种应用扩展提供了灵活性。例如，当 c_I (condition of image)=∅ 时，模型默认执行文本到视频（T2V）生成。而当 c_I 为初始帧时，模型则转换为典型的文本-图像到视频（TI2V）生成。此外，如果提供多个帧作为 c_I，即使没有 c_T (condition of text)，也可以用于视频预测。同时，如果将首尾帧作为 c_I提供，模型可以学习帧插值，并生成首尾帧之间的中间帧。进一步结合 T2V 和帧插值，还可以生成长时视频：T2V 用于生成关键帧，而帧插值则填补每对连续关键帧之间的中间帧。最终，通过随机选择适当的条件策略，可以训练出一个能够执行所有任务的统一模型。

图像条件随机丢弃

如前所述，帧替换策略为训练不同类型的模型提供了高度灵活性。我们在此展示其具体应用，即同时训练模型以执行文本到视频（T2V）和文本 - 图像到视频（TI2V）任务。在训练过程中，我们随机丢弃图像条件 cI 和文本条件 cT，类似于 T2V 模型中仅对文本条件随机丢弃的方式。

联合图像 - 文本无分类器引导（JIT-CFG）

无分类器引导（Classifier-Free Guidance, CFG）在文本到图像生成中表现出色，可以通过将概率质量引导到高似然区域来显著提升生成质量。在此基础上，我们提出了联合图像 - 文本无分类器引导（JIT-CFG），同时利用文本和图像条件进行引导，其速度估计公式为：

其中 s 为引导比例。当 c_I=∅ 时，该方法退化为标准的 T2V 无分类器引导。尽管可以像 InstructPix2Pix 所述引入两个独立的引导比例，以平衡图像和文本条件的强度，我们发现两步推理方法已经能够取得优异效果。此外，使用两个引导比例会增加一次前向传递，从而提高推理成本。

实验证明图像条件随机丢弃结合 JIT-CFG 不仅能自然地实现多任务训练，还有效解决了高分辨率视频生成模型训练的 “静止” 问题。我们推测，图像条件随机丢弃可以防止模型过度依赖图像条件，从而更好地捕捉视频训练数据中的运动信息。

渐进式训练策略

我们采用渐进式训练策略，其流程如图 4 所示。首先训练一个文本到图像（T2I）模型，用以初始化文本到视频（T2V）模型；随后，T2V 模型用于初始化 STIV 模型。为快速适应高分辨率和长时训练，我们在空间和时间维度中加入了插值的 RoPE 嵌入，并利用低分辨率、短时长模型的权重进行初始化。值得注意的是，高分辨率 T2V 模型同时结合了高分辨率 T2I 模型和低分辨率 T2V 模型的权重进行初始化。

数据

视频预处理和特征提取细节

为了确保高质量的输入数据，我们首先解决了原始视频中不一致的动作以及诸如切换和渐变之类的不必要过渡问题。利用 PySceneDetect，我们对视频帧进行分析，识别并分割出包含突兀过渡或渐变的场景。这一过程剔除了不一致的片段，确保视频片段在视觉上保持一致性，从而减少伪影并提升整体质量。随后，我们提取了一系列初始特征用于后续筛选，包括运动分数、美学分数、文本区域、帧高度、帧宽度、清晰度分数、时间一致性以及视频方向等。

视频字幕生成与分类细节

视频 - 文本对在训练文本到视频生成模型中起着至关重要的作用。然而，许多视频数据集缺乏高质量的对齐字幕，并且通常包含噪声或不相关内容。为此，我们在数据处理流程中引入了一个额外的视频字幕生成模块，用于生成全面的文本描述。

我们主要探索了两种方向：(1) 抽样少量帧，应用图像字幕生成器生成字幕后，再使用大型语言模型（LLM）对生成的字幕进行总结；(2) 直接使用视频专用的 LLM 生成字幕。

在初步尝试了第一种方法后，我们发现两个主要局限性：一是图像字幕生成器只能捕捉单帧的视觉细节，导致缺乏对视频动作的描述；二是 LLM 在基于多帧字幕生成密集描述时可能会出现虚构现象（hallucination）。

近期研究使用 GPT 家族模型创建微调数据集并训练视频 LLM。为了在大规模字幕生成中平衡质量和成本，我们选择了一种高效的视频字幕生成器。随后，我们使用 LLM 对生成的字幕进行分类，并统计视频的类别分布。

DSG-Video: 虚构检测评估

为了比较不同字幕生成技术，我们开发了一个评估模块，用于评估字幕的丰富度和准确性。

我们通过测量字幕中提及的唯一对象的多样性来量化字幕的丰富度，并通过检测虚构对象来评估准确性。

受文本到图像评估方法的启发，我们提出了 DSG-Video，用于验证字幕中提到的对象是否真实出现在视频内容中。

1. 首先，我们利用 LLM 自动生成针对字幕关键细节的问题，例如对象的身份、动作和上下文。

举例来说，给定一段提到 “沙发上坐着一只猫” 的字幕，LLM 会生成问题，比如 “视频中是否有一只猫？” 以及 “猫是否在沙发上？”

2. 然后，我们使用多模态 LLM 回答这些对象验证问题，通过评估视频中多个均匀采样帧的每个参考对象的存在情况。

对于每个生成的问题（例如，“该帧中是否有猫？”），多模态 LLM 检查每个采样帧并提供响应。如果对于某个问题，所有帧的响应都表明对象不存在，则我们将其分类为虚构对象。

这一方法确保了对视频中每个对象的逐帧验证。基于此，我们定义了两个评估指标：

DSG-Video_i：虚构对象实例的比例（即提到的所有对象中被检测为虚构的比例）；
DSG-Video_s：包含虚构对象的句子的比例（即所有句子中含虚构对象的比例）。

结果

基于上述研究，我们将 T2V 和 STIV 模型从 600M 参数扩展到 8.7B。

主要结果展示在表格中，与最新的开源和闭源模型对比后，证明了我们方法的有效性。具体而言，我们基于 Panda-70M 数据集中的 20,000 条经过筛选的视频，使用预训练的视频生成模型进行了微调（SFT）。在预训练阶段采用了 MaskDiT 技术后，我们尝试对模型进行无掩码方式的微调（UnmaskSFT）。此外，我们还对 STIV 模型进行了时间插值微调，以提升生成视频的运动平滑度（+TUP）。

T2V 性能

表格列出了不同 T2V 模型在 VBench 上的对比结果，包括 VBench-Quality、VBench-Semantic 和 VBench-Total 分数。分析表明，扩展 T2V 模型的参数能够提升语义理解能力。具体来说，当模型从 XL 增加到 XXL 和 M 时（三种模型尺度），VBench-Semantic 分数从 72.5 提升到 72.7，最终达到 74.8。这表明更大的模型在捕获语义信息方面表现更好。然而，对于视频质量的影响相对有限，VBench-Quality 仅从 80.7 提升至 82.1。这一发现表明，模型参数扩展对语义能力的提升大于对视频质量的影响。此外，将空间分辨率从 256 提升到 512 时，VBench-Semantic 分数显著提高，从 74.8 上升到 77.0。

SFT 的影响

通过高质量的 SFT 数据微调模型，可以显著提升 VBench-Quality 分数，从 82.2 提升到 83.9。在无掩码条件下对模型进行微调时，语义分数略有提升。我们的最佳模型实现了 79.5 的 VBench-Semantic 分数，超越了 KLING、PIKA 和 Gen-3 等领先的闭源模型。结合时间插值技术后，我们的模型在质量评分方面超越了所有其他模型，达到了最新的行业标准。

TI2V 性能

如表中所示，我们的模型在与最新方法的对比中表现出色。分析表明，尽管模型参数扩展提升了 I2V 分数，但对质量的影响较小。相比之下，提高分辨率能够显著改善质量和 I2V 分数。这一趋势表明，分辨率的提高对于提升多任务生成能力尤为关键。完整的分解维度结果见文章附录。

应用

视频预测

我们从 STIV-XXL 模型出发，训练一个以前四帧为条件的文本 - 视频到视频模型（STIV-V2V）。实验结果表明，在 MSRVTT 测试集和 MovieGen Bench 上，视频到视频模型的 FVD 分数显著低于文本到视频模型。这表明视频到视频模型在生成高保真和一致性视频帧方面表现出色，尤其适用于自动驾驶和嵌入式 AI 等需要高质量生成的领域。

帧插值

我们提出了 STIV-TUP，一个时间插值模型，以 STIV-XL 为初始模型，并在具有时间间隔的连续帧上进行训练，同时添加文本条件。实验表明，STIV 可以在文本和图像条件下进行高质量的帧插值，并且在 MSRVTT 测试集中，使用文本条件稍微优于其他条件。此外，我们将时间插值器与主模型级联，发现这种方法能够提升生成质量，同时保持其他指标稳定。

多视角生成

多视角生成旨在从给定的输入图像创建新视角。这项任务对视角一致性要求较高，依赖于良好预训练的视频生成模型。通过将视频生成模型适配为多视角生成，我们可以验证预训练是否有效捕获了 3D 信息，从而提升生成效果。

我们使用某些新视角相机的定义，并以初始帧为给定图像，预测接下来的新视角帧。通过训练一个 TI2V 模型并调整分辨率和训练步数，我们实现了与现有方法相当的表现，同时验证了我们的时空注意力机制在保持 3D 一致性方面的有效性。