ICLR 2025 | 原生3D+流匹配，现有SOTA被GaussianAnything超越

兰宇时，MMLab@NTU博士生，导师为 Chen Change Loy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。

尽管 3D 内容生成技术取得了显著进展，现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。

在 ICLR 2025 中，来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything，针对现有问题引入了一种交互式的点云结构化潜空间，实现了可扩展的、高质量的 3D 生成，并支持几何-纹理解耦生成与可控编辑能力。

该方法在 Objaverse 数据集上进行了大规模训练，并在文本、图像、点云引导的 3D 生成任务中超越了现有的原生 3D 生成方法。

目前，项目所有模型和测试/训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度 (AMP) 训练、flash-attention 以及 BF16 等加速技巧。

论文项目主页: https://nirvanalan.github.io/projects/GA/
论文代码: https://github.com/NIRVANALAN/GaussianAnything
Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
个人主页: https://nirvanalan.github.io/
论文标题：GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

研究背景

近年来，以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了快速的进展，在新视角合成、3D 物体生成和编辑上取得了令人满意的效果。在统一图片/视频生成的 LDM 框架的基础上，近期关于原生 (native) 3D diffusion model 的研究也展现了更优的泛化性，更快的生成速度与更好的可编辑性。

然而，一些关于原生 3D diffusion 模型的设计挑战仍然存在: (1) 3D VAE 输入格式，(2) 3D 隐空间结构设计，(3) 3D 输出表征选择。

为了解决上述问题，研究者提出基于 Flow Matching 的可控点云结构化隐空间 3D 生成模型 GaussianAnything，支持多模态可控的高效、高质量的 3D 资产生成。

方法

方法概览图 (3D VAE 部分)：

研究者提出的 3D-aware flow matching 模型主要包含以下三个部分:

利用编码器 (3D VAE Encoder) 将 3D 物体的 RGB-D (epth)-N (ormal) 多视图渲染图压缩到点云结构的 3D 隐空间。
在 3D 隐空间中训练几何 + 纹理的级联流匹配模型 (Flow Matching model), 支持图片、文字、和稀疏点云引导的 3D 物体生成。
使用 3D VAE Decoder 上采样生成的点云隐变量，并解码为稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

结构化的高效、高质量 3D 压缩

高效的 3D 物体编码

高质量 3D 高斯上采样/解码

VAE 模型训练

Cascaded 3D Generation with Flow Matching

级联 3D 生成框架

在第二阶段，研究者在训练完成的 3D VAE space 上进行 Flow Matching 训练。在使用文本/单目图像作为输入条件时，他们均使用 Cross Attention 进行条件信息编码并送入 DiT 框架中进行训练。同时分为两个阶段单独学习几何 (稀疏点云) 和纹理 (点云结构的低维特征)。

具体而言，研究者首先训练一个稀疏点云上的 Flow Matching 模型：