黄仁勋圈重点的世界模型平台？技术报告全解析,华人贡献中坚力量

机器之心报道

机器之心编辑部

AI 的下一个前沿是物理。在昨天的 CES 发布会上，英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。

简单来说，Cosmos 是一个世界模型平台，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。这些模型的作用非常明确，就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据，以解决该领域数据严重不足的问题。

英伟达的 Cosmos 平台一次发布了 8 个模型。

这些模型在 2000 万小时的视频数据上进行训练，分为扩散（连续 token）和自回归（离散 token）模型两类，支持文本生成视频和文本 + 视频生成视频两种生成方式。

生成效果如下：

英伟达表示，已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户，包括 1X、Agile Robots、Agility、Uber 等等。

黄仁勋表示：「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样，世界基础模型对于推动机器人和自动驾驶汽车开发至关重要，但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化，让每个开发者都能用上通用机器人技术。」

Cosmos 模型已经公开发布，下面是相关地址：

英伟达 API 目录：https://build.nvidia.com/explore/simulation
Hugging Face：https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

除了模型，英伟达还公开了 Cosmos 的技术报告。从贡献者名单来看，华人学者承担了该项目的大量工作，有些小组（比如 Prompt Upsampler）甚至出现了全员华人的现象（文末可见完整名单）。

技术报告地址：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf

以下是技术报告的核心内容。

技术报告概览

技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型（WFM）平台。作者主要关注的是视觉世界基础模型。在这种模型中，观察结果以视频形式呈现，扰动可以以各种形式存在。

如图 2 所示，作者提出了一个预训练，然后后训练的范式，将 WFM 分成预训练 WFM 和后训练 WFM。为了建立预训练 WFM，他们利用大规模的视频训练数据集，让模型接触到各种不同的视觉体验，使其成为一个通才。

为了建立后训练 WFM，他们使用从特定物理 AI 环境中收集的数据集，对预训练 WFM 进行微调，以建立专门的 WFM，用于目标明确的专门物理 AI 设置。图 1 展示了预训练和后训练 WFM 的结果示例。

数据决定了 AI 模型的上限。为了构建一个高上限的预训练 WFM，作者开发了一个视频数据整理 pipeline。他们用它来定位具有丰富动态效果和高视觉质量的视频部分，以促进模型学习编码在视觉内容中的物理知识。

作者使用该 pipeline 从长达 2000 万小时的视频集合中提取了约 1 亿个视频片段，片段长度从 2 秒到 60 秒不等。对于每个片段，他们使用视觉语言模型（VLM）为每 256 帧提供一个视频描述。视频处理是计算密集型工作。作者利用现代 GPU 硬件实现的 H.264 视频编码器和解码器进行解码和转码。这个视频数据整理 pipeline 利用了许多预训练的图像 / 视频理解模型。这些模型具有不同的吞吐量。为了最大限度地提高生成可训练视频数据的总体吞吐量，作者构建了一个基于 Ray 的协调 pipeline。

在报告中，作者探讨了两种用于构建预训练 WFM 的可扩展方法。这两种方法是基于 transformer 的扩散模型和自回归模型。扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频。自回归模型基于之前的生成内容，按照预设顺序逐段生成视频。

这两种方法都能将困难的视频生成问题分解为更容易解决的子问题，从而使问题更加容易解决。作者利用 SOTA transformer 架构来提高其可扩展性。在第 5.1 节中，他们介绍了一种基于 Transformer 的扩散模型设计，它具有强大的世界生成能力。在第 5.2 节中，他们介绍了一种基于 Transformer 的自回归模型设计，用于生成世界。

基于 Transformer 的扩散模型和基于 Transformer 的自回归模型都使用 token 来表示视频，前者使用向量形式的连续 token，后者使用整数形式的离散 token。作者注意到，视频 token 化 —— 一个将视频转换为 token 集的过程 —— 是一个非常复杂的过程。视频包含丰富的视觉世界信息。然而，为了便于学习世界基础模型，我们需要将视频压缩为紧凑的 token 序列，同时最大限度地保留视频中的原始内容，因为世界基础模型训练的计算复杂度会随着 token 数量的增加而增加。在很多方面，构建视频 tokenizer 与构建视频编解码器类似。作者开发了一种基于注意力的编码器 - 解码器架构，用于学习连续和离散 token 的视频 token 化（见第 4 章）。

在第 6 章中，作者对预训练的 WFM 进行微调，以获得适用于各种物理 AI 任务的后训练 WFM。在第 6.1 节中，作者对预训练的扩散 WFM 进行微调，使其成为相机姿态条件。这种后训练创建了一个可导航的虚拟世界，用户可以通过移动虚拟视点来探索所创建的世界。在第 6.2 节中，他们在由视频动作序列组成的各种机器人任务中对 WFM 进行微调。结果表明，通过利用预训练的 WFM，可以根据机器人采取的行动更好地预测世界的未来状态。在第 6.3 节中，作者演示了如何针对各种自动驾驶相关任务对预训练的 WFM 进行微调。

英伟达开发的 WFM 的预期用途是物理 AI 构建者。为了在使用 WFM 时更好地保护开发人员，作者开发了一个功能强大的防护系统，其中包括一个用于阻止有害输入的前置防护系统和一个用于阻止有害输出的后置防护系统。详情见第 7 章。

英伟达的目标是建立一个世界基础模型平台，帮助物理 AI 构建者推进他们的系统。为了实现这一目标，他们根据 NVIDIA 开放模型许可，分别在 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 目录下提供预训练的世界基础模型和 tokenizer。预训练脚本和后训练脚本将与视频数据整理 pipeline 一起在 NVIDIA Nemo Framework 目录下提供，以帮助构建者制作微调数据集。

NVIDIA Cosmos：https://github.com/NVIDIA/Cosmos
NVIDIA Cosmos Tokenizer：https://github.com/NVIDIA/Cosmos-Tokenizer
NVIDIA Nemo Framework：https://github.com/NVIDIA/Nemo

世界基础模型平台

图 4 直观地展示了 Cosmos WFM 平台中可用的功能，包括视频 curator、视频 tokenization、世界基础模型预训练、世界基础模型后训练和护栏（guardrail）。

具体而言：

视频 curator。本文开发了一个可扩展的视频数据 pipeline。每个视频被分割成没有场景变化的独立镜头。随后，对这些片段应用一系列过滤步骤，以筛选出高质量且富含动态信息的子集用于训练。这些高质量镜头随后使用视觉语言模型（VLM）进行标注。接着执行语义去重，以构建一个多样但紧凑的数据集。

视频 tokenization。本文开发了一系列具有不同压缩比的视频 tokenizer。这些 tokenizer 是因果性的，当前帧的 token 计算不依赖于未来的观测。这种因果设计有几个优点。在训练方面，它使得联合图像和视频训练成为可能，因为当输入是单张图像时，因果视频 tokenizer 也可以作为图像 tokenizer 使用。这对于视频模型利用图像数据集进行训练非常重要，因为图像数据集包含了丰富的世界外观信息，并且往往更加多样化。

WFM 预训练。本文探索了两种可扩展的方法来构建预训练的世界基础模型 —— 扩散模型和自回归模型。

对于基于扩散的 WFM，预训练包括两个步骤：1）Text2World 生成的预训练，以及 2）Video2World 生成的预训练；
对于基于自回归的 WFM，预训练包括两个步骤：1）基础的下一 token 生成，以及 2）文本 - 条件 Video2World 生成。

世界模型后训练。本文展示了经过预训练的 WFM 在多个下游物理 AI 应用中的应用。本文以相机姿态作为输入提示对预训练的 WFM 进行微调，因而模型能够在创建的世界中自由导航。此外，本文还展示了如何针对人形机器人和自动驾驶任务对预训练 WFM 进行微调。

护栏。为了安全使用所开发的世界基础模型，本文开发了一个护栏系统，用于阻止有害的输入和输出。

Tokenizer

tokenizer 是现代大模型的基本构建块，能将原始数据转换为更有效的表征。具体来说，视觉 tokenizer 将原始和冗余的视觉数据（例如图像和视频）映射为紧凑的语义 token，这使得它们对于处理高维视觉数据至关重要。这种能力不仅能够有效训练大规模 Transformer 模型，而且还使有限计算资源上的推理民主化。

tokenizer 有两种类型：连续型和离散型。连续型 tokenizer 将视觉数据编码为连续的潜在嵌入，如 Stable Diffusion 或 VideoLDM 等潜在扩散模型。这些嵌入适用于通过从连续分布中采样生成数据的模型。离散 tokenizer 将视觉数据编码为离散潜在编码，将其映射为量化索引，如 VideoPoet 等自回归 transformer。这种离散表征对于像 GPT 这样用交叉熵损失训练的模型来说是必要的。

tokenizer 的成功在很大程度上依赖于它们提供高压缩率而不影响后续视觉重建质量的能力。一方面，高压缩减少了存储和计算需求。另一方面，过度压缩可能会导致重要视觉细节丢失。这种权衡对 tokenizer 的设计提出了重大挑战。

英伟达推出了 Cosmos Tokenizer，这是一组视觉 tokenizer，其中包括用于图像和视频的连续和离散 tokenizer。Cosmos Tokenizer 提供卓越的视觉重建质量和推理效率。并提供一系列压缩率来适应不同的计算限制和应用程序需求。

英伟达使用轻量级且计算高效的架构和时间因果机制来设计 Cosmos Tokenizer。具体来说，Cosmos Tokenizer 采用因果时间卷积层和因果时间注意力层来保留视频帧的自然时间顺序，确保使用单一统一网络架构对图像和视频进行无缝 tokenization。

如图 8 所示，评估结果表明，Cosmos Tokenizer 的性能明显优于现有 tokenizer：

世界基础模型预训练

经过预训练的 WFM 是通才模型，可以捕捉现实世界物理和自然行为的一般知识。本文利用两种不同的可扩展深度学习范式 —— 扩散模型和自回归模型，构建了两类 WFM。

扩散模型和自回归模型都将复杂的生成问题分解为一系列更简单的子问题，并极大地推动了生成模型的发展。

对于扩散模型，复杂的生成问题被分解为一系列去噪问题；而对于自回归模型，复杂的生成问题则被分解为一系列下一个 token 预测问题。

本文在三个月的时间内，使用一个由 10,000 个 NVIDIA H100 GPU 组成的集群，训练了论文中报告的所有 WFM。

表 10 展示了预训练 WFM 及其配套模型的概览。

对于基于扩散的 WFM 家族，本文首先构建了两个 Text2World 模型，分别为 7B 和 14B 参数，分别命名为 Cosmos-1.0-Diffusion-7B-Text2World 和 Cosmos-1.0-Diffusion-14B-Text2World。

对于基于自回归的 WFM 家族，本文首先构建了两个基础模型，分别为 4B 和 12B 参数，命名为 Cosmos-1.0-Autoregressive-4B 和 Cosmos-1.0-Autoregressive-12B。这些模型纯粹基于当前视频观测预测未来视频。

Cosmos-1.0-Diffusion WFM 的整体架构：

Cosmos-1.0-Diffusion 模型的配置细节。

本文采用渐进式训练策略，每个阶段的具体情况见表 12：

基于自回归的 WFM 架构如图 14 所示。本文对标准的 Transformer 模型架构进行了几项修改，以适应视频生成任务，包括添加了：1）3D 感知的位置嵌入，2）交叉注意力机制以支持文本输入，从而实现更好的控制，以及 3）QK-Normalization。

Cosmos-1.0-Autoregressive 模型配置细节。

技术报告演示了如何微调 Cosmos WFM 以支持不同的物理 AI 应用，包括：

以用于相机控制的后训练 WFM 为例，通过相机姿态调节，英伟达将相机控制集成到 Cosmos-1.0-Diffusion-7B-Video2World 中，使其成为有效的 3D 世界模拟器。训练后的 WFM 结果被称为 Cosmos-1.0-Diffusion-7BVideo2World-Sample-CameraCond。

为了安全使用 WFM，英伟达还开发了一套全面的安全系统（护栏）。它由两个阶段组成：Pre-Guard 阶段和 Post-Guard 阶段。Pre-Guard 阶段利用 Aegis（Ghosh 等人，2024）和关键字列表来阻止有害提示。Post-Guard 阶段使用视频内容安全分类器和面部模糊过滤器来阻止有害的视觉输出。