AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
当下,视频生成备受关注,有望成为处理物理知识的 “世界模型” (World Model),助力自动驾驶、机器人等下游任务。然而,当前模型在从 “生成” 迈向世界建模的过程中,存在关键短板 —— 对真实世界物理规律的刻画能力不足。
为此,来自悉尼大学、西澳大学等研究机构的研究者,带来了一篇聚焦于生成式“物理 AI”的综述文章,深度剖析如何将物理规律融入视觉生成模型。
- 论文标题:Generative Physical AI in Vision: A Survey
- 论文链接:https://arxiv.org/abs/2501.10928
生成式“物理 AI”的核心概念
综述围绕生成式“物理 AI”,先明确了相关定义。物理模拟(Physical Simulation)是依据物理模型让输入数据随时间演变;物理理解(Physical Understanding)是从观测数据推断物理模型或参数;而生成(Generation)则是用生成模型创造新内容,其中不涉及对物理规律深入理解的为无物理感知的生成(Physics-Unaware Generation),反之则是物理感知生成(Physics-Aware Generation)。
物理感知生成可细分为两类。一类是基于显式物理模拟的(PAG-E),这类方法显式利用物理模拟模型提升生成模型的物理刻画能力;另一类是无显式物理模拟的(PAG-I)。在 PAG-E 中,根据 “物理模拟” 与 “生成模型” 的融合方式,可归纳为六大范式。
有显式模拟的生成(PAG-E):六大范式
范式一:生成后模拟(Gen-to-Sim)
这类方法通常在生成内容后,为其添加物理属性,使其可模拟和交互。比如 PIE-NeRF 在 神经辐射场中分布可模拟的 “粒子”,实现用户与场景的交互;PhysGaussian 利用材料点法(MPM)将 3D 高斯核视为可模拟的 “粒子”,模拟形变等物理现象;VR-GS、LIVE-GS 和 DreMa 等也基于此范式,实现 VR 3D 内容的交互或机器人对物体摆放场景的预测。
范式二:生成中模拟(Sim-in-Gen)
此范式将物理模拟直接集成到生成模型中,作为核心子模块。比如 PhysGen 基于牛顿定律下的刚体动力学,结合大模型推断的物理参数,实现用户外力控制下的视频生成;PhyCAGE 把 MPM 物理模拟器当作优化器,将损失函数的梯度视为物理模拟中的速度;PhysDiff 将物理约束加入扩散模型的采样过程中,生成合理的人体运动等。
范式三:生成与模拟并行(Gen-and-Sim)
该范式中,生成和模拟同时进行或具有紧密关联。比如 PAC-NeRF 利用混合 Eulerian-Lagrangian 表示,同时推断物体的几何和物理参数;iPAC-NeRF 在此基础上直接在 Lagrangian 空间中优化粒子位置和特征;PhysMotion 在图像到视频生成过程中,将生成过程与模拟过程交替进行等。
范式四:模拟约束生成(Sim-Constrained Gen)
这种范式下,物理模拟为生成模型提供训练约束或指导。比如 PhysComp 使用基于物理的损失函数,确保生成的 3D 模型在力作用下表现真实;Atlas3D 通过保证在物理模拟中的稳定性,生成可自支撑的 3D 模型;DiffuseBot 则将物理模拟作为数据过滤方式,筛选物理性能好的生成结果等;
范式五:生成约束模拟(Gen-Constrained Sim)
此范式中,生成模型为模拟过程提供指导或先验知识。比如 Physics3D 结合视频扩散模型和 MPM,利用分数蒸馏采样(Score Distillation Sampling)优化物理参数;DreamPhysics 进一步提出运动蒸馏采样(Motion Distillation Sampling);PhysDreamer 从生成的视频数据中学习优化物理模拟的参数等。
范式六:模拟评估生成(Sim-Evaluated Gen)
这种范式下,生成的内容旨在用于基于模拟的部署,注重在模拟环境中的实用性。比如 PhysPart 生成可用与 3D 打印和机器人场景的 3D 替换部件;PhyScene 生成适合 Embodied AI 的高质量 3D 交互场景等。
无显式模拟的生成(PAG-I)
综述还介绍了无显式模拟的物理感知生成(PAG-I)的相关工作。一些视频生成大模型展现出一定的物理推理能力,能捕捉和复现部分物理动态和因果关系。
此外,PhyT2V 使用大语言模型为视觉生成提供物理知识,通过迭代优化文本提示词提升文生视频模型的物理真实性;Generative Interactive Dynamics 的相关研究聚焦于模拟图像或视频中物体受外力影响下的变化规律;Motion Prompting 等方法利用运动轨迹等控制视频生成和编辑;CoCoGen 等则通过在采样过程中注入物理信息,生成符合物理规律的特定领域数据等。
物理评估:衡量模型的物理 “实力”
综述同时分析了现有方法如何评估图像或视频生成模型的物理刻画能力。传统评估指标在检测物理规律的符合程度方面存在不足。
为此,研究者们提出了专门的数据集和指标。比如 PhyBench、PhyGenBench 和 VideoPhy 等 Benchmark,涵盖力学、光学、热学和材料等物理领域,通过构建相关场景和文本提示词来评估模型。
在评估指标方面,分为人工评估和自动评估,人工评估针对物理现象的不同维度进行打分,自动评估则包括利用视觉语言模型 LVMs 获取评估分数等。
未来展望:物理 AI 的无限可能
最后,综述展望了生成式“物理 AI”的未来方向,涵盖评估方式、可解释性、物理知识增强的大模型、神经 - 符号混合模型、生成式模拟引擎、跨学科应用等多种可能。让我们持续关注,共同见证 “物理 AI” 的发展。
如果想深入了解文中提及的研究成果,欢迎访问 https://github.com/BestJunYu/Awesome-Physics-aware-Generation 查看相关论文汇总。