ICLR 2025 | 西湖大学提出闭环扩散控制策略，高效与闭环兼得

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文来自西湖大学人工智能系的吴泰霖团队。本文有两位共同第一作者：魏龙是西湖大学人工智能系博士后，冯浩东是西湖大学博士生。通讯作者吴泰霖是西湖大学人工智能系特聘研究员，其领导的人工智能与科学仿真发现实验室主要研究方向为开发生成模型方法并用于科学和工程领域的仿真、设计和控制。

高效闭环控制是复杂系统控制的核心要求。传统控制方法受限于效率与适用性挑战；而新兴的扩散模型虽然表现出色，却难以满足高效闭环控制的要求。西湖大学研究团队最新提出的 CL-DiffPhyCon 框架，通过异步并行去噪技术，在闭环控制要求下，显著提升了控制效率和效果。论文最近被人工智能领域顶级会议ICLR 2025 接收。

论文标题：CL-DiffPhyCon: Closed-loop Diffusion Control of Complex Physical Systems
论文链接：https://openreview.net/pdf?id=PiHGrTTnvb
代码地址：https://github.com/AI4Science-WestlakeU/CL_DiffPhyCon

一、研究背景

在科学研究、工程实践以及具身智能等诸多领域，系统控制问题都有着广泛的应用。在这些场景中，高效闭环控制是核心性能要求。例如，当机器人在复杂环境中执行任务，必须对周围环境变化做出即时反应。这就需要控制系统能够根据环境实时反馈，迅速调整控制信号，保证每一个动作指令都基于最新的环境状态生成。另外，工业制造、航空航天、能源生产等科学和工程领域的系统控制任务，同样面临着如何实现高效闭环控制的难题。

在过往的研究当中，涌现出了传统控制方法，以及近年来的深度学习、强化学习、模仿学习等众多控制方法。近期的 DiffPhyCon [1] 等研究表明，基于扩散模型 [2] 的方法在复杂物理系统控制中表现出色，尤其是对高维、长时间跨度的控制问题具有显著的优势，这主要源自于扩散模型擅长学习高维分布的特性。这类方法从离线收集的轨迹数据中学习一个去噪模型，从噪声开始，利用去噪模型逐步去噪，产生控制信号。此外，基于扩散模型的策略在机器人操作任务中也具有优异的表现 [3]。

然而，现有的扩散控制方法在应用到闭环控制时，会遇到控制效果和效率难以平衡的缺陷。它们的模型窗口内所有物理时间步，都要经历从纯噪声开始的完整去噪采样过程。若每个物理时间窗口都照此采样并将其中的最早控制信号用于控制，虽然能实现闭环控制，却会带来非常高昂的采样成本。而且，这种方式还可能会破坏控制信号的时序一致性，影响整体控制性能。反之，如果为了提高采样效率，每隔若干个物理时间步才进行一次完整采样，又脱离了闭环控制的要求。

虽然近期有研究工作提出在线重新规划策略（RDM）[4]，自适应地确定何时重新规划控制序列，但这种策略也不是真正意义上的闭环框架。它们往往需要额外的似然估计计算开销，还依赖额外的超参数。面对不同任务场景，需要多次实验来调试这些超参数，增加了应用难度和不确定性。

二、本文主要贡献

针对现有扩散控制方法在闭环控制中遇到的上述问题，本论文提出了一种基于扩散模型的闭环控制方法 CL-DiffPhyCon，它能够根据环境的实时反馈生成控制信号，实现了高效的闭环控制。该方法的核心思想是将扩散模型中的物理时间步和去噪过程解耦，允许不同的物理时间步呈现不同的噪声水平，从而实现了控制序列的高效闭环生成。论文在 1D Burgers’方程控制和 2D 不可压缩流体控制两个任务上，验证了 CL-DiffPhyCon 的显著结果。

如下图 1 中所示，该方法具有如下优势：

高效采样：CL-DiffPhyCon 通过异步去噪框架，能够显著减少采样过程中的计算成本，提高采样效率。与已有的扩散控制方法相比，CL-DiffPhyCon 能够在更短的时间内生成高质量的控制信号。
闭环控制：CL-DiffPhyCon 实现了闭环控制，能够根据环境的实时反馈不断调整控制策略。相比已有的开环扩散控制方法，提高了控制效果。
加速采样：此外，CL-DiffPhyCon 还能与 DDIM [5] 等扩散模型的加速采样技术结合，在维持控制效果基本不变的前提下，进一步提升控制效率。

图 1：本文的 CL-DiffPhyCon（右图）相较于以往扩散控制方法（左图和中图）的优势。通过采用异步去噪框架，该方法能够实现闭环控制，并显著加快采样过程。其中，H表示扩散模型包含的物理时间窗口长度，DiffPhyCon - h表示每隔h个物理时间步进行一次包含T个去噪步骤的完整采样过程，然后将采样的控制信号序列中的前h个依次用于开环控制。这里没有展示与 DDIM [5] 的结合。

三、问题设置和预备知识

1. 问题设置：

上述过程中隐藏了一个假设：轨迹长度N 较小，这时H 取值为N。而实际问题中更为常见的情形是N 很大，这导致物理时间窗口为N的扩散模型难以在 GPU 中运行或者物理时间跨度太大导致偏离闭环要求过远。这就需要训练一个时间窗口相对较小（H

四、CL-DiffPhyCon 方法介绍

该方法考虑的也是H

为了方便，本文首先引入了如下两个记号：

3. 闭环控制过程

基于以上两个训练好的扩散模型，闭环控制的循环过程如下（分别对应图 2 中从左向右 4 个子图）：

4. 与扩散模型加速采样技术的结合

值得一提的是，CL-DiffPhyCon 还可与扩散模型领域的快速采样技术相结合，进一步提升采样效率。例如，DDIM [5] 通过特定的采样策略减少了采样步数，在不损失太多采样质量的前提下加快了采样速度。在 CL-DiffPhyCon 的同步和异步模型的采样过程中引入 DDIM，能够使得 CL-DiffPhyCon 在保持控制性能基本不变的前提下，以更快的速度完成采样和控制信号生成，从而在实际应用中更具优势。论文通过实验结果验证了这一点，这说明 CL–DiffPhyCon 具有和已有的扩散模型领域加速采样方法相独立的加速效果。

四、CL-DiffPhyCon 理论分析

五、实验结果

1. 实验设置

借鉴 DiffPhyCon [1] 论文中的实验设置，这篇论文在两个具有挑战性的控制任务上进行了实验：

（1）一维 Burgers 方程控制：通过控制外力项，使系统的最终状态与目标状态一致。

（2）二维烟雾间接控制：通过间接控制外部力场，最小化从非目标出口逸出的污染物比例。

在一维 Burgers 方程控制实验中，考虑了 6 种实际场景，如无噪声控制、物理约束下的控制、存在系统和测量噪声时的控制，以及部分区域可控制（包括全部区域可观测和部分区域可观测两种细分场景）等。在二维烟雾间接控制任务中，设置了大范围区域控制和边界控制 2 种场景，每种又细分为固定障碍物地图和随机障碍物地图两种环境模式，以检验方法的泛化能力。

对比方法包括一系列经典控制方法、模仿学习、强化学习和扩散控制方法，如 PID、行为克隆（BC）、BPPO、自适应重规划扩散控制（RDM）以及 DiffPhyCon 等，并对这些基线方法进行了适当调整，以保证公平比较。由于两个实验中的轨迹较长，研究人员将 DiffPhyCon 扩展为三个版本：DiffPhyCon-h（h∈{1,5,H - 1}）。这里的 DiffPhyCon - h表示每隔h个物理时间步进行一次 DiffPhyCon 的完整采样过程，然后将采样的控制信号序列中的前h个用于开环控制（见上文图 1）。

2. 实验结果

在一维 Burgers’方程控制任务中，CL–DiffPhyCon 在 6 种场景下控制效果均优于所有对比方法。与控制效果最佳的对比方法 DiffPhyCon-1 相比，CL-DiffPhyCon 在无噪声和带有物理约束的设置中，使控制目标分别降低了 54.3% 和 48.6%；在两种噪声的情况下，控制目标分别降低了 48.6% 和 57.2%；在部分区域可控制场景中，控制目标分别降低了 11.8% 和 11.1%。在采样效率上，CL-DiffPhyCon 相比每个 DiffPhyCon-h 快了约 H/h 倍（h∈{1,5,15}），也比自适应重规划扩散控制（RDM [4]）快两倍。结合 DDIM 采样后，加速效果更明显，进一步实现了 5 倍的加速，且控制效果保持相当。

表 1. 一维 Burgers’方程控制任务上的实验结果对比。

在二维烟雾间接控制中，CL-DiffPhyCon 同样表现优异，在 4 种场景设置中，效果均优于对比方法。在采样效率方面，CL-DiffPhyCon 比 DiffPhyCon-h 实现了约 H/h h∈{1,5,14} 倍的加速，并且比 RDM 更高效。结合 DDIM 后，推理速度进一步加快，比 RDM 快 5 倍以上。

表 2. 二维烟雾间接控制任务上的实验结果对比。

图 3. 在固定地图（上图）和随机地图（下图）两种环境下，CL-DiffPhyCon 与表现最好的对比方法在二维烟雾间接控制上的可视化对比。横向表示不同物理时刻。控制目标 J 越低，表示控制效果越好。

六、总结与展望

CL-DiffPhyCon 为高效闭环控制提供了一种创新解决方案。通过实验验证，证明了其具有兼得优良的控制效果和高效的采样效率的显著优势。不过，研究人员也指出，该方法仍有提升空间。目前 CL-DiffPhyCon 是基于离线数据训练的，未来可以考虑在训练过程中融入环境实时反馈，探索多样的控制策略。此外，虽然两个扩散模型是基于对目标分布的理论分析推出，但在引导采样下得到的样本与最优解的误差界仍是一个开放问题，值得进一步深入研究。

从应用前景来看，CL-DiffPhyCon 不仅适用于这篇论文的复杂物理系统控制任务，在机器人控制、无人机控制等领域也具有广阔的应用潜力。随着研究的不断深入和技术的持续进步，CL-DiffPhyCon 将不断完善，为更广泛领域的控制问题提供有益的解决方案。

参考文献

[1] Long Wei et al. DiffPhyCon: A Generative Approach to Control Complex Physical Systems. NeurIPS 2024.

[2] Jonatha Ho et al. Denoising diffusion probabilistic models. NeurIPS 2020.

[3] Cheng Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023.

[4] Siyuan Zhou et al. Adaptive online replanning with diffusion models. NeurIPS 2024.

[5] Jiaming Song et al. Denoising Diffusion Implicit Models, ICLR 2021.