DistillKac: Few-Step Image Generation via Damped Wave Equations¶

会议: ICLR 2026
arXiv: 2509.21513
代码: 无
领域: 扩散模型 / 少步生成 / 新PDE框架
关键词: damped wave equation, Kac process, finite-speed flow, endpoint distillation, few-step generation

一句话总结¶

用阻尼波方程（telegrapher equation）及其随机 Kac 表示替代 Fokker-Planck 方程作为生成模型的概率流基础，实现有限速度传播的概率流，并提出端点蒸馏（endpoint distillation）方法实现少步生成，在 CIFAR-10 上 4 步 FID=4.14、1 步 FID=5.66。

研究背景与动机¶

领域现状：扩散模型基于 Fokker-Planck 方程（抛物型 PDE），其反向速度场在终端时间附近变得刚性（stiff），因为扩散过程允许无限传播速度。
现有痛点：反向 ODE 的速度范数在 \(t \to T\) 时可以无界增长，导致末端采样不稳定，需要大量步数才能保证精度。蒸馏时学生模型在大步长下容易偏离教师轨迹。
核心矛盾：无限速度传播 → 速度场刚性 → 采样不稳定 → 需要多步。能否从 PDE 层面就解决这个问题？
本文要解决什么？ 引入双曲型 PDE（阻尼波方程）作为替代，利用其有限速度传播特性来获得更稳定的少步生成。
切入角度：阻尼波方程是 Fokker-Planck 方程的推广——扩散是阻尼和速度趋向无穷时的极限。Kac 过程天然有速度上界 \(c\)，保证全局有界的动能和 Wasserstein 空间中的 Lipschitz 正则性。
核心 idea 一句话：有限速度的概率流让端点匹配可以自动保证全程路径接近，从而使少步蒸馏更稳定。

方法详解¶

整体框架¶

PDE 替换：用阻尼波方程 \(\partial_{tt} p + \lambda \partial_t p = c^2 \nabla^2 p\) 替代 Fokker-Planck 方程
随机 Kac 表示：粒子以有限速度 \(c\) 运动，速度方向随 Poisson 过程翻转（1D）或重采样（高维）
Guided Kac Flow：在速度空间引入 CFG，保持平方可积性
Endpoint Distillation：学生匹配教师在一个时间段端点上的输出

关键设计¶

有限速度概率流:
做什么：用 Kac 过程替代 diffusion SDE，速度场全局有界
核心思路：Kac 过程中粒子位置 \(X_t\) 和速度 \(V_t\) 耦合演化，\(|V_t| \leq c\)，因此轨迹在因果锥内，不会无限传播
设计动机：速度有界 → 末端不刚性 → 数值积分更稳定 → 少步更鲁棒
端点蒸馏 + 路径稳定性定理 (Theorem 8):
做什么：证明端点匹配可以保证整条轨迹的接近
核心思路：利用 Kac 流的 Lipschitz 正则性，如果学生和教师在端点 \(t_k\) 匹配，则在整个区间 \([t_{k+1}, t_k]\) 内也保持接近，误差以 \(O(M^{-1})\)（Euler 学生）衰减
设计动机：这是有限速度流独有的优势——无限速度的扩散流无法保证这种稳定性
速度空间 CFG:
做什么：在 Kac 速度场上做 classifier-free guidance
核心思路：\(u_{\text{guided}} = (1+w) u_\theta^{\text{cond}} - w u_\theta^{\text{uncond}}\)，证明在温和条件下保持平方可积
设计动机：传统 CFG 在 score 空间操作，可能破坏有限速度约束；在速度空间操作天然保持

损失函数 / 训练策略¶

UNet backbone，CIFAR-10/CelebA-64/LSUN Bedroom-256
教师：100 步 Guided Kac Flow（AB-2 积分）
蒸馏：100→20→4→2→1 步，每阶段迭代蒸馏
端点 MSE 损失

实验关键数据¶

主实验¶

方法	NFE	FID (CIFAR-10)	FID (CelebA-64)
Guided Kac Flow (100步, AB-2)	100	3.58	3.50
DistillKac	20	3.72	3.42
DistillKac	4	4.14	4.36
DistillKac	2	4.68	5.66
DistillKac	1	5.66	7.45
DDIM (100步)	100	4.16	6.53
DDIM (20步)	20	6.84	13.73
Progressive Distillation	4	3.00	—
iCT	2	2.46	—

关键发现¶

100→1 步蒸馏 FID 仅增加 2.08（3.58→5.66），展示了有限速度流的端点稳定性优势
在 20 步时 DistillKac（3.72）大幅优于 DDIM（6.84），4 步时差距更大（4.14 vs 不可用）
AB-2 积分器效率最优：二阶精度但每步只需一次函数评估
但绝对 FID 值不如 EDM（1.79）或 iCT（2.46），说明 Kac 流基础模型的拟合能力还需提升

亮点与洞察¶

PDE 视角的创新：将生成模型从抛物型 PDE（Fokker-Planck）扩展到双曲型 PDE（阻尼波方程），这是一个根本性的范式扩展。Table 1 中三类 PDE（抛物/椭圆/双曲）对应三类生成模型的分类很有启发性。
端点-路径稳定性定理是核心理论贡献——有限速度流的几何特性使得端点教学可以"免费"获得路径一致性，这是蒸馏方法设计的理论基石。
潜在价值：如果 Kac 流基础模型质量能进一步提升（如用 DiT），有限速度的稳定性优势可能在大规模模型上更显著。

局限性 / 可改进方向¶

绝对生成质量不如 SOTA（FID 3.58 vs EDM 1.79），Kac 流基础模型还需改进
仅在小规模数据集（CIFAR-10, CelebA-64）上验证，缺少 ImageNet/高分辨率实验
Kac 过程的速度上界 \(c\) 和阻尼率 \(\lambda\) 需要调优，增加了超参数
高维扩展中 Kac 过程的方向重采样机制效率未被充分分析
与一致性模型（iCT, sCT）的对比不够全面

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双曲型 PDE 生成模型框架开创性，理论贡献突出
实验充分度: ⭐⭐⭐ 仅小数据集，绝对性能不够强
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨优雅，PDE 到生成模型的映射清晰
价值: ⭐⭐⭐⭐ 开辟新方向（双曲型生成模型），但需要更多后续工作验证大规模可行性