PID-controlled Langevin Dynamics for Faster Sampling of Generative Models¶

会议: NeurIPS 2025
arXiv: 2511.12603
代码: GitHub
领域: 扩散模型 / 采样加速
关键词: Langevin 动力学, PID 控制, 采样加速, 能量模型, 无训练

一句话总结¶

将 PID 控制理论引入 Langevin 动力学采样，利用梯度历史（积分项）提供动量穿越能量壁垒、利用梯度趋势（微分项）抑制振荡实现快速稳定收敛，无需额外训练即可在 SGM 和 EBM 上实现 10 倍以上采样加速。

Langevin 动力学是 EBM（能量模型）和 SGM（分数匹配生成模型）中核心的采样方法，但存在根本性的速度瓶颈——需要大量细粒度迭代才能收敛到目标分布。例如 NCSNv2 需要 1000+ 次神经函数评估（NFE）。

问题的物理本质是：在复杂的高维能量景观中，粒子频繁遭遇梯度近零区域（局部极小值或不稳定平衡点），必须依赖随机噪声逃逸，这极度低效。而直接增大步长会引入更大噪声波动，严重降低质量。

作者的关键洞察来自控制理论：标准 Langevin 动力学等价于一个简单的比例（P）反馈控制系统，仅利用当前梯度信息。而控制理论早已证明，加入积分（I）和微分（D）项可以大幅提升控制系统的响应速度和稳定性。这一类比为采样加速开辟了全新视角。

将 Langevin 采样重新解释为反馈控制问题——能量梯度 $\nabla_x U_\theta(x)$ 作为反馈信号，粒子作为被控系统。在标准的比例项（当前梯度）基础上引入积分项（梯度历史）和微分项（梯度变化趋势），形成完整的 PID 控制器驱动采样过程。

PID 控制的 Langevin 动力学: 核心更新公式为： $$x_{t+1} = x_t + \epsilon\left(k_p \nabla_x U_\theta(x_t) + \frac{k_i}{t}\sum_{s=0}^{t}\nabla_x U_\theta(x_s) + k_d(\nabla_x U_\theta(x_t) - \nabla_x U_\theta(x_{t-1}))\right) + \sqrt{2\epsilon}\xi_t$$
P 项（$k_p$）：标准梯度引导，响应当前误差
I 项（$k_i/t \cdot \sum$）：累积梯度历史创造动量效应，帮助穿越能量壁垒和不稳定平衡点。$1/t$ 归一化防止积分项随时间主导
D 项（$k_d$）：捕捉梯度变化率，在梯度持续下降方向加速运动，在梯度持续上升处抑制运动，减少超调
指数衰减的积分增益调度: 积分项的增益随时间衰减 $k_i(t) = \gamma^t \cdot k_i$（$\gamma < 1$）。这是受控制理论中增益调度的启发：早期需要高积分增益构建动量穿越壁垒，后期需要低增益避免不稳定。衰减确保采样最终回归标准 Langevin 动力学，保证理论收敛性。
与退火 Langevin 动力学的无缝集成: PIDLD 直接替换每个噪声尺度 $\sigma_i$ 内的标准 Langevin 步骤。关键创新是跨噪声尺度保持状态连续——前一尺度的最终 $I_t$ 和梯度（用于 D 项）作为下一尺度 $\sigma_{i-1}$ 的初始状态，确保历史信息在整个采样过程中持续传递。

论文给出了微分项保持收敛的理论保证：在局部强凸能量景观下，当步长满足 $\epsilon < \frac{1}{(1+2k_d)m}$（$m$ 为强凸参数）时，系统渐近稳定并收敛到唯一平稳分布。这证明 D 项是合理的稳定化组件，不会破坏采样过程。

数据集	方法	NFE=25(SGM)	NFE=100(SGM)	NFE=232×5(SGM)	NFE=20(EBM)	NFE=40(EBM)
CIFAR10	Vanilla ALD	46.8	17.2	12.5	58.1	35.3
	MILD	-	-	13.0	49.9	34.4
	PIDLD	18.3	12.1	11.4	46.1	33.2
CelebA	Vanilla ALD	25.0(50)	13.6(250)	9.5(500×5)	63.5(20)	35.4(30)
	MILD	-	-	11.0	41.1	32.9
	PIDLD	8.0(50)	5.7(250)	5.6(500×5)	38.9(20)	30.0(30)

任务	方法	NFE=5	NFE=10	NFE=30
Sudoku	Vanilla	45.99%	51.00%	50.77%
	MILD	49.75%	54.82%	55.25%
	PIDLD	50.54%	55.48%	55.94%
Connectivity	Vanilla	86.16%(1)	87.22%(2)	87.49%(5)
	MILD	86.16%(1)	88.54%(2)	90.15%(5)
	PIDLD	86.16%(1)	91.32%(2)	92.95%(5)

配置	CIFAR10 FID (NFE=25)	CelebA FID (NFE=50)	说明
P only (baseline)	46.8	25.0	标准 ALD
P + I	~30	~15	I 项帮助穿越壁垒
P + D	~22	~10	D 项是图像生成主要贡献者
P + I + D (PIDLD)	18.3	8.0	两者互补，完整模型最优

10 倍以上加速: SGM 上 PIDLD 用 100 NFE 即达到基线最优性能（需 1000+ NFE），CelebA 上效果更显著（38.3% FID 改善）
D 项在图像生成中主导: 因为退火 Langevin 的早期能量景观被噪声平滑，壁垒较浅，I 项穿越能力发挥受限；D 项帮助在每个噪声尺度快速收敛到局部井心
I 项在推理任务中主导: 推理任务需要找到全局能量最小值，I 项的动量效应在高 NFE 时优势持续增加（Connectivity 任务中，PIDLD 仅用 2 NFE 即超过基线 10 NFE 的性能）
与 MILD 的比较优势: PIDLD 在所有配置上均优于仅动量方法 MILD，且性能更稳定，受益于 PID 的综合反馈机制