Idea撞车何恺明「分形生成模型」！速度领先10倍，性能更强

新智元报道

编辑：LRST

【新智元导读】澳大利亚国立大学团队提出了ARINAR模型，与何凯明团队此前提出的分形生成模型类似，采用双层自回归结构逐特征生成图像，显著提升了生成质量和速度，性能超越了FractalMAR模型，论文和代码已公开。

前不久，大神何恺明刚刚放出新作「分形生成模型」，递归调用原子生成模块，构建了新型的生成模型，形成了自相似的分形架构，将GenAI模型的模块化层次提升到全新的高度。

论文地址： https://arxiv.org/pdf/2502.17437v1

GitHub 地址：https://github.com/LTH14/fractalgen

最近，澳大利亚国立大学的研究人员提出了一个全新的图像生成模型ARINAR，在思想上与分形生成模型不谋而合，但是在性能和速度上都显著提升，base模型的FID从11.8提升到2.75，生成时间从2分钟降低到12秒！ARINAR不仅超越了之前的扩散模型，与目前表现最好的自回归模型MAR相比，ARINAR生成质量相当，速度是MAR的5倍。

论文链接： https://arxiv.org/abs/2503.02883

GitHub地址：https://github.com/Qinyu-Allen-Zhao/Arinar

ARINAR全称是双层自回归逐特征生成模型（Bi-Level Autoregressive Feature-by-Feature Generative Models），核心思想在于：通过逐特征生成的方式生成tokens，从而提高整体图像生成的质量和速度。

设计动机

现有的自回归（AR）图像生成模型通常采用逐token生成的方式。具体来说，模型会首先预测第一个token的分布，根据这个分布采样出第一个token，然后基于这个token生成下一个token的分布，再采样出第二个token，依此类推，直到生成完整的图像。

这里的token可以理解为图像的某种表示形式，通常是使用自编码器（如VAE）实现图像与一系列tokens之间的转换。每个token可以看作图像的一个局部区域或特征的编码。

研究人员指出，逐token生成的核心挑战在于如何建模高维token的复杂分布。每个token通常是一个高维向量（例如16维）。当模型需要预测下一个token的分布时，如何准确地表达和预测该token的分布一直是一个难题。

现有的方法主要有两种思路：

离散token生成：一些方法使用特殊的自编码器（如VQVAE）将图像转换为离散的token，然后使用多项式分布来建模token的分布。这种方法的问题在于，离散化会引入量化误差，导致生成图像的质量下降。
连续token生成：另一些模型尝试直接建模连续token的分布。

例如，GIVT模型使用高斯混合模型（GMM）来预测token的分布，并从GMM中采样生成token。然而，实践中GMM难以准确拟合复杂的高维token分布；

另一种方法是MAR模型，使用轻量级的扩散模型来生成token。虽然扩散模型能够更好地拟合分布，但扩散过程通常需要上百次迭代，导致整个模型生成速度较慢。

这些方法的局限性在于，要么过于简单，无法很好地拟合复杂的token分布，要么生成速度较慢。

因此，研究人员提出了一个新的思路：逐特征生成。

具体来说，模型每次不再一次性生成整个token，而是逐特征生成。每个token由多个特征组成（例如16维），模型会先生成第一个特征的分布并采样出第一个特征，然后基于这个特征生成第二个特征的分布，再采样出第二个特征，依此类推，直到生成整个token。

方法设计

ARINAR模型的设计分为两层自回归结构：

外层自回归层：这一层负责生成token的条件向量。具体来说，它基于已经生成的token，预测下一个token的条件向量。这里外层可以是任意之前的自回归模型，例如使用MAR。

内层自回归层：这一层基于外层生成的条件向量，逐特征生成下一个token。具体来说，内层会先生成第一个特征，然后基于这个特征生成第二个特征，依此类推，直到生成整个token。

假如一个图像被转换成256个16维的tokens，那么外层自回归模型就会运行256次，每次预测下一个token的条件向量。每次外层自回归模型生成条件向量后，内层自回归模型就会运行16次来逐特征生成相应的token。

这种双层结构的好处是，内层自回归只需专注于单个特征的生成，而不需要一次性建模整个token的分布。因此，内层可以使用简单的高斯混合模型（GMM）来建模单个特征的分布，从而大大简化了预测token分布的难度。

与FractalMAR的关系

在论文中，研究人员提到了一个与之类似的工作FractalMAR，也是一个多层自回归模型，但它是在像素空间中逐像素生成图像的。

也就是说，FractalMAR的每一层都负责生成图像的不同部分，从大块区域到单个像素。例如使用一个四层自回归模型：

最外层生成整个图像的大块区域；
第二层生成每个大块区域中的小块区域；
第三层生成每个小块区域中的像素；
最内层生成每个像素的RGB值。

相比之下，ARINAR是在特征空间中逐特征生成图像的。ARINAR使用了自编码器将图像转换为连续的特征表示，然后在这些特征上依赖GMM进行逐特征生成。

研究人员强调，虽然ARINAR和FractalMAR的设计思路相似，但ARINAR在性能和速度上都优于FractalMAR。ARINAR可以看作是FractalMAR在潜在空间中的版本。

实验结果

研究人员在ImageNet 256×256图像生成任务上对ARINAR进行了测试，使用了213M参数的模型（ARINAR-B）。实验结果显示：

生成质量上，ARINAR-B在没有使用CFG（classifier-free guidance）的情况下，FID（Frechet Inception Distance）得分为9.17，使用CFG后，FID得分提升到2.75，这个结果与当前最先进的MAR-B模型（FID=2.31）相当，且显著超过了FractalMAR。