跳转至

PID-controlled Langevin Dynamics for Faster Sampling of Generative Models

会议: NeurIPS 2025
arXiv: 2511.12603
代码: GitHub
领域: 扩散模型 / 采样加速
关键词: Langevin 动力学, PID 控制, 采样加速, 能量模型, 无训练

一句话总结

将 PID 控制理论引入 Langevin 动力学采样,利用梯度历史(积分项)提供动量穿越能量壁垒、利用梯度趋势(微分项)抑制振荡实现快速稳定收敛,无需额外训练即可在 SGM 和 EBM 上实现 10 倍以上采样加速。

研究背景与动机

Langevin 动力学是 EBM(能量模型)和 SGM(分数匹配生成模型)中核心的采样方法,但存在根本性的速度瓶颈——需要大量细粒度迭代才能收敛到目标分布。例如 NCSNv2 需要 1000+ 次神经函数评估(NFE)。

问题的物理本质是:在复杂的高维能量景观中,粒子频繁遭遇梯度近零区域(局部极小值或不稳定平衡点),必须依赖随机噪声逃逸,这极度低效。而直接增大步长会引入更大噪声波动,严重降低质量。

作者的关键洞察来自控制理论:标准 Langevin 动力学等价于一个简单的比例(P)反馈控制系统,仅利用当前梯度信息。而控制理论早已证明,加入积分(I)微分(D)项可以大幅提升控制系统的响应速度和稳定性。这一类比为采样加速开辟了全新视角。

方法详解

整体框架

将 Langevin 采样重新解释为反馈控制问题——能量梯度 \(\nabla_x U_\theta(x)\) 作为反馈信号,粒子作为被控系统。在标准的比例项(当前梯度)基础上引入积分项(梯度历史)和微分项(梯度变化趋势),形成完整的 PID 控制器驱动采样过程。

关键设计

  1. PID 控制的 Langevin 动力学: 核心更新公式为: $\(x_{t+1} = x_t + \epsilon\left(k_p \nabla_x U_\theta(x_t) + \frac{k_i}{t}\sum_{s=0}^{t}\nabla_x U_\theta(x_s) + k_d(\nabla_x U_\theta(x_t) - \nabla_x U_\theta(x_{t-1}))\right) + \sqrt{2\epsilon}\xi_t\)$
  2. P 项\(k_p\)):标准梯度引导,响应当前误差
  3. I 项\(k_i/t \cdot \sum\)):累积梯度历史创造动量效应,帮助穿越能量壁垒和不稳定平衡点。\(1/t\) 归一化防止积分项随时间主导
  4. D 项\(k_d\)):捕捉梯度变化率,在梯度持续下降方向加速运动,在梯度持续上升处抑制运动,减少超调

  5. 指数衰减的积分增益调度: 积分项的增益随时间衰减 \(k_i(t) = \gamma^t \cdot k_i\)\(\gamma < 1\))。这是受控制理论中增益调度的启发:早期需要高积分增益构建动量穿越壁垒,后期需要低增益避免不稳定。衰减确保采样最终回归标准 Langevin 动力学,保证理论收敛性。

  6. 与退火 Langevin 动力学的无缝集成: PIDLD 直接替换每个噪声尺度 \(\sigma_i\) 内的标准 Langevin 步骤。关键创新是跨噪声尺度保持状态连续——前一尺度的最终 \(I_t\) 和梯度(用于 D 项)作为下一尺度 \(\sigma_{i-1}\) 的初始状态,确保历史信息在整个采样过程中持续传递。

收敛性保证

论文给出了微分项保持收敛的理论保证:在局部强凸能量景观下,当步长满足 \(\epsilon < \frac{1}{(1+2k_d)m}\)\(m\) 为强凸参数)时,系统渐近稳定并收敛到唯一平稳分布。这证明 D 项是合理的稳定化组件,不会破坏采样过程。

实验关键数据

主实验:图像生成 FID 对比

数据集 方法 NFE=25(SGM) NFE=100(SGM) NFE=232×5(SGM) NFE=20(EBM) NFE=40(EBM)
CIFAR10 Vanilla ALD 46.8 17.2 12.5 58.1 35.3
MILD - - 13.0 49.9 34.4
PIDLD 18.3 12.1 11.4 46.1 33.2
CelebA Vanilla ALD 25.0(50) 13.6(250) 9.5(500×5) 63.5(20) 35.4(30)
MILD - - 11.0 41.1 32.9
PIDLD 8.0(50) 5.7(250) 5.6(500×5) 38.9(20) 30.0(30)

推理任务:Sudoku 和 Connectivity 准确率

任务 方法 NFE=5 NFE=10 NFE=30
Sudoku Vanilla 45.99% 51.00% 50.77%
MILD 49.75% 54.82% 55.25%
PIDLD 50.54% 55.48% 55.94%
Connectivity Vanilla 86.16%(1) 87.22%(2) 87.49%(5)
MILD 86.16%(1) 88.54%(2) 90.15%(5)
PIDLD 86.16%(1) 91.32%(2) 92.95%(5)

消融实验

配置 CIFAR10 FID (NFE=25) CelebA FID (NFE=50) 说明
P only (baseline) 46.8 25.0 标准 ALD
P + I ~30 ~15 I 项帮助穿越壁垒
P + D ~22 ~10 D 项是图像生成主要贡献者
P + I + D (PIDLD) 18.3 8.0 两者互补,完整模型最优

关键发现

  • 10 倍以上加速: SGM 上 PIDLD 用 100 NFE 即达到基线最优性能(需 1000+ NFE),CelebA 上效果更显著(38.3% FID 改善)
  • D 项在图像生成中主导: 因为退火 Langevin 的早期能量景观被噪声平滑,壁垒较浅,I 项穿越能力发挥受限;D 项帮助在每个噪声尺度快速收敛到局部井心
  • I 项在推理任务中主导: 推理任务需要找到全局能量最小值,I 项的动量效应在高 NFE 时优势持续增加(Connectivity 任务中,PIDLD 仅用 2 NFE 即超过基线 10 NFE 的性能)
  • 与 MILD 的比较优势: PIDLD 在所有配置上均优于仅动量方法 MILD,且性能更稳定,受益于 PID 的综合反馈机制

亮点与洞察

  • 控制理论与生成模型的精彩交叉: 将采样问题重新建模为控制问题,P/I/D 三个项的物理意义和控制理论意义完美对齐
  • 无需训练的即插即用: 不需要额外数据、先验信息或重训练,直接替换采样器即可使用
  • I 项和 D 项的互补性: 二者分别在推理和生成任务中扮演主角,说明完整 PID 控制提供了任务自适应的最优平衡
  • 增益衰减保证理论收敛: \(\gamma^t\) 衰减使系统最终退化为标准 LD,兼顾早期加速和后期理论保证

局限与展望

  • 主要面向 Langevin 采样的模型(EBM、SGM),不直接适用于 DDPM/DDIM 等 ODE 采样器
  • I 项的 \(1/t\) 归一化和指数衰减的 \(\gamma\) 引入了额外超参数,需要调优
  • 理论收敛仅在局部强凸设定下证明,多模态分布的全局收敛保证尚缺
  • 未与 DDIM 等 ODE 采样器直接对比(作者声明这不是同类方法)

相关工作与启发

  • CLD(临界阻尼 Langevin 扩散)通过 HMC 加速但需额外学习扩散速度,PIDLD 免训练
  • 矩阵预条件方法 依赖目标数据统计,泛化性受限;PIDLD 不需要先验
  • MILD 是最直接对标的方法,仅用动量(相当于只有 I 项),PIDLD 的 D 项提供了额外的稳定化
  • PID 控制在深度学习优化器中已有应用(如加速梯度下降),本文是首次应用于生成模型采样

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 控制理论视角全新,P/I/D 各项的作用机理清晰可验证
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 SGM/EBM/推理任务,但仅测试低分辨率图像
  • 写作质量: ⭐⭐⭐⭐ 理论推导与实验分析搭配合理,toy 实验的引导性强
  • 价值: ⭐⭐⭐⭐ 对 Langevin 采样有显著改进,但适用范围限于LD采样器

相关论文