Safe and Stable Control via Lyapunov-Guided Diffusion Models¶

会议: NeurIPS 2025
arXiv: 2509.25375
代码: 无
领域: Image Generation / Control
关键词: 扩散模型, Lyapunov稳定性, 安全控制, 证书函数, Almost Lyapunov理论

一句话总结¶

提出 S²Diff，一个基于模型的扩散规划框架，利用控制 Lyapunov 屏障函数（CLBF）引导扩散采样生成轨迹级控制策略，无需控制仿射假设与二次规划，在多种非线性动力系统上同时保证安全性和稳定性，平均安全率达 98.75%。

研究背景与动机¶

现实世界中的控制问题（机器人、航空航天等）不仅需要最小化成本，更需要同时保证安全性（轨迹不进入危险区域）和稳定性（系统收敛到目标状态）。然而同时满足两者在控制理论中仍是开放问题。

现有方法的核心痛点：

模型预测控制（MPC）：通过凸优化在滚动时域内最小化累积代价。但策略通常次优，计算复杂度随时域增长急剧上升，高维非线性问题中容易变得不可行。

基于证书函数的方法（CLBF-QP）：通过学习 CLBF 并用二次规划（QP）求解控制策略。存在三个根本性问题：(a) QP 构建需要控制仿射（control-affine）动力学假设；(b) 逐步贪心优化导致全局不一致行为，需引入松弛变量改变优化目标；(c) CLBF 与策略联合学习导致 QP 可行域不稳定，训练崩溃。

现有扩散规划方法（如 Diffuser、SafeDiffuser）：在长时决策中表现良好，但仅关注代价最小化，安全性和稳定性保证仍为空白。SafeDiffuser 需手工设计 CBF 先验，实用性受限。

核心矛盾：梯度方法受限于控制仿射假设、松弛变量引入、联合训练不稳定；采样方法缺乏安全稳定性保证。

核心 idea：将 CLBF 作为扩散模型的引导函数，用扩散采样替代 QP 求解，并揭示扩散采样与 Almost Lyapunov 理论的内在联系——即使 Lie 导数条件在小区域被违反，全局系统仍可保持近似指数衰减。

方法详解¶

整体框架¶

S²Diff 采用迭代的两阶段框架：(1) 用当前 CLBF 作为引导函数，通过扩散采样生成满足安全稳定约束的轨迹级控制策略；(2) 用采样的轨迹更新 CLBF 参数。两个阶段交替进行直到收敛。

关键设计¶

概率化建模与 CLBF 引导采样:
- 功能：将带约束的控制优化问题转化为概率采样问题
- 核心思路：定义目标轨迹分布 \(p(U) \propto p_{\text{safe}}(U) \cdot p_{\text{stable}}(U) \cdot p_{\text{cost}}(U)\)，其中安全项为 \(V(x_t) \leq c\) 的指示函数乘积，稳定项采用软约束形式 \(p_{\text{stable}} \propto \exp(-\frac{1}{\gamma_2}\sum_t \|[\mathcal{L}_f V(x_t) + \lambda V(x_t)]^+\|^2)\)，代价项为累积代价的指数形式
- 设计动机：软约束对应 Almost Lyapunov 理论——允许 Lie 导数条件在小概率区域被违反。当温度 \(\gamma_2\) 足够小时，采样策略可在轨迹级保证安全稳定。相比 QP 方法引入松弛变量改变优化目标，软约束保持优化问题不变，避免高拒绝率
基于蒙特卡洛的扩散采样:
- 功能：通过 DDPM 式的前向-逆向扩散过程生成控制轨迹
- 核心思路：前向过程对轨迹加高斯噪声，逆向过程利用序贯蒙特卡洛（SMC）估计得分函数 \(\nabla \log p(U^i)\)，通过后验期望 \(\mathbb{E}[U^0 | U^i]\) 的无偏估计进行去噪
- 设计动机：采样方法不需要控制仿射结构，避免引入松弛变量，可直接处理一般可微非线性动力学。生成的干净轨迹 \(U^0\) 直接给出控制策略 \(u_{1:T}\)
CLBF 迭代更新:
- 功能：用扩散采样得到的轨迹数据更新神经网络参数化的 CLBF
- 核心思路：损失函数包含 6 个项，分别约束均衡点值为零、正定性、安全集子水平集、不安全集超水平集、连续时间 Lie 导数递减（自动微分）和离散时间 Lyapunov 递减
- 设计动机：使用一般的多层神经网络 \(\hat{V} = W_N \sigma_{N-1}(\cdots \sigma_1(W_1 x))\) 参数化 CLBF，而非传统的二次形式，可以处理非凸安全集。同时结合连续和离散 Lie 导数约束互补提升学习质量

理论保证¶

定理 3.1（Almost Lyapunov 安全稳定性保证）：若 CLBF \(V\) 在紧状态空间 \(\mathcal{X}\) 上除了一个体积小于 \(\epsilon\) 的连通集 \(\Omega\) 外均满足 \(\min_u \mathcal{L}_f V(x) < -\lambda V(x)\)，则系统在扩散采样策略下满足 \(V(x_t) \leq \exp(-\lambda_1 t) V(x_0) + M \epsilon^{1/n}\)。即违反区域仅引入 \(O(\epsilon^{1/n})\) 量级的加性缓冲项，整体仍保持近似指数衰减。

实验关键数据¶

主实验¶

在 8 个非线性动力系统上（含控制仿射和非控制仿射）与 rCLBF-QP、MPC、MBD 对比：

任务	方法	安全率	‖x−x⋆‖	推理时间(ms)
Segway	rCLBF-QP	90%	0.11	5.2
Segway	S²Diff	100%	0.23	21.8
Neural Lander	rCLBF-QP	55%	0.13	12.7
Neural Lander	S²Diff	100%	0.06	35.4
2D Quad	rCLBF-QP	70%	0.19	18.6
2D Quad	S²Diff	95%	0.11	82.4
F-16 (非仿射)	MBD	100%	68.34	611.3
F-16 (非仿射)	S²Diff	100%	47.61	257.2
平均	rCLBF-QP	78.75%	0.384	10.06
平均	S²Diff	98.75%	0.226	45.64

消融实验¶

配置	安全率	‖x−x⋆‖	说明
γ₂=0.5	35%	0.18	温度过高，稳定性约束过松
γ₂=0.1	100%	0.06	最佳平衡点
γ₂=0.01	100%	0.12	温度过低，约束过严导致次优
仅离散Lie导数 (α₁=0)	85%	0.21	缺少自动微分约束降低安全率
仅连续Lie导数 (α₂=0)	100%	0.15	缺少离散约束精度下降
双Lie导数 (α₁=α₂=1)	100%	0.06	互补约束最优

关键发现¶

扩散采样相比 QP 方法学到的 CLBF 具有更大的收缩区域，稳定性保证更强
CLBF 引导使扩散采样效率大幅提升：无引导 MBD 安全率仅 73.75%，有 CLBF 引导升至 98.75%
违反率实测极低：Segway 0.5%、Neural Lander 1.1%、F-16 2.4%，验证 Almost Lyapunov 理论
S²Diff 是唯一能处理非控制仿射 F-16 系统（16维状态空间）的证书方法

亮点与洞察¶

首次建立扩散采样与 Almost Lyapunov 理论的理论联系，将"采样时局部违反 Lie 导数条件"这一实践现象赋予坚实的理论基础
方法框架优雅：CLBF 引导扩散采样，采样轨迹反过来改进 CLBF，形成自增强迭代
消除了对控制仿射假设、松弛变量和 QP 求解器的依赖，大幅扩展了适用范围

局限与展望¶

推理速度（平均 45.6ms）虽优于 MPC（249.5ms），但慢于 QP（10ms），可通过策略蒸馏加速
目前仅在已知动力学模型的 model-based 设置下验证，model-free 扩展是未来方向
CLBF 的神经网络参数化可能在极高维系统中面临可扩展性挑战

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐