新智元报道
编辑:英智
【新智元导读】本文提出了一种全新的噪声扭曲算法,利用光流推导出的结构化噪声来替代传统随机噪声,成功实现了对视频运动的强大控制能力。
在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。
来自Neflix、Stony Brook大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。
实现方法很简单,只要对训练视频做预处理,生成结构化噪声。这一过程不涉及扩散模型的设计,无需改变其架构和训练流程。
研究提出了一种全新的噪声扭曲算法,速度超快,能实时运行。 它用光流场推导的扭曲噪声,取代随机的时序高斯噪声,同时保持了空间高斯性。
由于算法高效,能用扭曲噪声以极小的成本微调视频扩散基础模型。
这为用户提供了全面的运动控制方案,可用于局部物体运动控制、全局摄像机运动控制以及运动迁移等场景。
此外,算法兼顾了扭曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像素质量,又能有效控制运动。
论文链接:https://arxiv.org/pdf/2501.08331
本研究的贡献如下:
创新的视频扩散模型解决方案:提出一种简单新颖的方法,将运动控制转化为可用于噪声变形的流场,在潜在空间采样时能直接使用。它不仅能与任意视频扩散基础模型搭配,还可和其他控制方式协同使用。
高效的噪声变形算法:研发出高效的噪声变形算法,它既能保持空间高斯性,又能追踪跨帧的时间运动流。这让微调运动可控的视频扩散模型时,花费的成本最小,操作也更方便。
实验和用户研究充分验证了该方法在各类运动控制应用中的优势。
这些应用涵盖局部物体运动控制、运动传递到新场景、基于参考的全局相机运动控制等。
在像素质量、可控性、时间连贯性以及用户主观偏好等方面,表现十分优异。
Go-with-the-Flow
当前的视频扩散模型存在局限性,研究者提出了一种创新且简单的方法,旨在把运动控制当作结构化组件,融入到视频扩散模型潜在空间的无序状态中。
具体实现方式是关联潜在噪声的时间分布。
先从二维高斯噪声片入手,把它和根据训练视频样本提取的光流场算出来的扭曲噪声片,按照时间顺序连接起来。下图清晰展示了该方法的流程。
本文提出创新的噪声扭曲算法,运行速度极快,能够实时运行。
传统方法需从初始帧起,对每一帧都进行一系列复杂的扭曲操作,而本文的算法则通过在连续帧之间迭代扭曲噪声来实现目标。
具体来说,研究者在像素层面精准地追踪噪声和光流密度,依据前向、后向光流,计算画面的扩展与收缩变化,以此来确定噪声的扭曲方式。
同时,结合HIWYN提出的条件白噪声采样方法,保证算法在运行过程中始终维持高斯性。
在视频扩散推理阶段,本文提出的方法优势明显,能依据不同运动类型,自动调整噪声变形,为多种运动控制应用提供一站式解决方案。
局部物体运动控制:当用户想要控制局部物体运动时,只需给出拖动信号,就能在物体轮廓范围内灵活改变噪声元素,让局部物体按照需求运动。
全局相机运动控制:针对全局相机运动的控制,复用参考视频里的光流数据,对输入噪声进行扭曲处理,这样就能在不同文本描述或初始帧条件下,重新生成视频。
任意运动传递:进行任意运动传递时,运动表达方式不再局限于常见光流,还包括3D渲染引擎生成的光流、深度变形等形式。
Go-with-the-Flow主要由两部分组成:噪声扭曲算法和视频扩散微调。
噪声扭曲算法运行时,和扩散模型的训练流程互不干扰。研究团队利用这个算法生成噪声模式,再用这些模式去训练扩散模型。
本研究中的运动控制完全基于噪声初始化,在视频扩散模型中没有添加任何额外参数,这样既能简化模型结构,又能提高运行效率。
HIWYN提出将噪声扭曲应用于图像扩散模型的设想。受此启发,研究团队发现了扭曲噪声的新用法,就是把它作为视频生成模型的运动控制条件。
研究团队使用由大量视频和扭曲噪声对构成的数据集,对视频扩散模型进行微调。经过这样的处理,在推理阶段就能很好地控制视频里的运动了。
噪声扭曲算法
为了便于进行大规模噪声扭曲操作,研究团队研发出一种快速噪声扭曲算法。
这个算法是逐帧处理噪声的,只需要存储前一帧噪声(尺寸是H×W×C)和每个像素的光流密度值矩阵(尺寸为H×W),这里的密度值能体现特定区域中噪声的压缩程度。
HIWYN算法在运行时,需要进行耗时的多边形光栅化和每个像素的上采样操作。
新算法直接根据光流追踪帧与帧之间画面的扩展和收缩情况,全程只用到像素级别的操作,这些操作还很容易实现并行处理,大大提高了效率。
新算法和HIWYN算法一样,都能保证噪声的高斯性。
下一帧噪声扭曲
噪声扭曲算法通过迭代方式来计算噪声,某一帧的噪声计算仅取决于前一帧的状态。
假设每帧视频的尺寸是H×W,用 代表一个高为H、宽为W的 二维矩阵。
已知前一帧的噪声q和流密度 , 同时知道正向流f和反向流f ′: , 基于这些条 件,算法就能算出下一帧的噪声q′和流密度 , q′(或p′)与前一帧的q(或p)通过流在时间上建立起关联。
本文的算法结合了扩展和收缩两种动态机制。
当视频里某个区域放大,或者有物体朝着相机移动时,就会触发扩展机制。在这种情况下,当前帧的一个噪声像素,会在下一帧中对应一个或多个噪声像素,这就是扩展。
在收缩时,研究者借鉴了拉格朗日流体动力学的思路,把噪声像素想象成沿着前向光流f移动的粒子。
这些粒子移动后,画面中往往会留下空白区域。对于前向光流f没有覆盖到的区域,就利用反向光流f'拉回一个噪声像素,再用扩展过程中算好的噪声去填充这些空白。
此外,为了长时间维持噪声分布的正确性,研究团队借助密度值,来记录特定区域内噪声像素的聚集数量。
在收缩情形下,当这些噪声像素与附近其他粒子混合时,密度较高的粒子会有更大的权重。
为了同时处理好扩展和收缩这两种情况,研究者构建了一个二分图G。图里的边表明了噪声和密度从前一帧传递到下一帧的方式。
在综合考虑图中各边的作用,生成下一帧噪声q'时,依据光流密度对噪声进行缩放,以此确保原始帧的分布特性能够得以保留。
同时计算扩展和收缩的情况,避免它们相互干扰,就能确保最终输出的结果符合完美的高斯分布。
实验结果
为了验证方案的有效性,研究团队开展了大量实验及用户调研。结果表明,在保持运动一致性和针对同一情境渲染不同的运动效果方面,该方案表现十分出色。
从实验数据和用户反馈可知,本方案在像素画面质量、运动控制精准度、与文本描述的契合度、视频时间连贯性以及用户喜好程度等方面,都具有显著优势。
用Moran's I指标衡量空间相关性,K-S检验评估正态性。选择多种基准进行对比,包括固定独立采样噪声、插值方法及其他噪声扭曲算法。
可以看到,本文提出的方法在Moran's I指标和K-S检验中表现良好,表明无空间自相关性且符合正态分布;而双线性、双三次和最近邻插值方法未能保持高斯性,存在空间自相关性且偏离正态分布。
本文的方法在保持空间高斯性上成效显著,且在噪声生成效率和实际应用方面有很强的可行性。
实验结果表明,本文的方法效率极高,比并行的InfRes运行更快,相比HIWYN,速度提升了26倍,这得益于算法的线性时间复杂度。
算法的效率比实时速度快了一个数量级,这说明在视频扩散模型微调时动态应用噪声扭曲是可行的。
为验证噪声扭曲算法有效性,将经不同方法扭曲的噪声输入到用于超分辨率和人像重光照的预训练图像扩散模型中,通过评估输出视频的质量和时间一致性。
结果显示,本文的算法在时间一致性上比基线方法更出色,处理前景、背景和边缘时稳定性更好。
在DifFRelight视频重光照任务中评估噪声扭曲方法。推理时,研究者从特定区域裁剪出画面,并按照指定光照条件进行处理。本文的方法在图像和时间指标上表现更好,能有效改进图像扩散模型。
接下来聚焦视频扩散中的局部对象运动控制。为评估模型控制能力,将其与SG-I2V、MotionClone和DragAnything三种基线方法对比。
现有方法在处理复杂局部运动时存在局限,SG-I2V会误判运动导致场景平移,DragAnything缺乏一致性易失真,MotionClone难以捕捉细微动态。
本文的模型在处理复杂运动时表现优异,能保持对象保真度和三维一致性。大量研究和评估证实了本文的方法在运动一致性、视觉保真度和整体真实感方面优势显著。
本文的方法同样支持运动迁移和相机运动控制。
在DAVIS数据集的对象运动迁移中,运动保真度和视频质量更好,生成视频与真实视频还原度高。
在相机运动控制上,在DL3DV和WonderJourney数据集以及深度扭曲实验中表现出色。
在视频首帧编辑能力上,能无缝融入新增对象并保留原始运动,明显优于基线方法。
本研究提出了一种新颖的、速度快于实时的噪声扭曲算法,它能将运动控制自然地融入视频扩散噪声采样过程。
研究者用这种噪声扭曲技术对视频数据进行预处理,以开展视频扩散微调,从而提供了一种通用且用户友好的范式,可应用于各类运动可控的视频生成场景。
参考资料:
https://x.com/EHuanglu/status/1882014762281865379
https://x.com/natanielruizg/status/1882121096859890140
https://eyeline-research.github.io/Go-with-the-Flow/