EVODiff: Entropy-aware Variance Optimized Diffusion Inference¶

会议: NeurIPS 2025 arXiv: 2509.26096 代码: ShiguiLi/EVODiff 领域: image_generation 关键词: 扩散模型, 推理加速, 信息论, 条件熵, 方差优化

一句话总结¶

从信息论角度分析扩散模型推理过程，提出通过优化条件方差来减少条件熵的 EVODiff 方法，在不修改模型的前提下显著加速采样并提升生成质量。

背景与动机¶

扩散模型在图像生成中表现优异，但推理过程缓慢且存在训练-推理不一致问题。现有加速方法（如 DPM-Solver、UniPC 等）将去噪过程视为 ODE 求解，但缺乏信息论基础——忽略了信息传输效率这一关键因素。作者认为，成功的去噪本质上是减少反向转移中的条件熵，而现有方法并未从这一原理出发设计算法。

核心问题¶

现有 ODE 求解器缺乏信息论指导，无法最优地恢复去噪过程中的信息
数据预测参数化为何优于噪声预测参数化，缺乏理论解释
条件方差优化在无参考情况下如何同时减少转移误差和重建误差

方法详解¶

信息论框架¶

将扩散推理视为条件熵减少过程。反向转移中相邻状态的互信息为：

\[I_p(\mathbf{x}_{t_i}; \mathbf{x}_{t_{i+1}}) = H_p(\mathbf{x}_{t_i}) - H_p(\mathbf{x}_{t_i} | \mathbf{x}_{t_{i+1}})\]

在高斯假设下，条件熵与条件方差直接相关：

\[H_p(\mathbf{x}_{t_i} | \mathbf{x}_{t_{i+1}}) \propto \log\det(\mathrm{Var}(\mathbf{x}_{t_i} | \mathbf{x}_{t_{i+1}}))\]

因此 最小化条件方差等价于最大化信息传输效率。

重建误差分解¶

将重建误差分解为方差项和偏差项：

\[\mathbb{E}_q[\|\mathbf{x}_{t_i} - \mathbf{x}_0\|^2] = \underbrace{\mathbb{E}_q[\|\mathbf{x}_{t_i} - \boldsymbol{\mu}_{t_i|t_{i+1}}\|^2]}_{\text{方差项}} + \underbrace{\mathbb{E}_q[\|\boldsymbol{\mu}_{t_i|t_{i+1}} - \mathbf{x}_0\|^2]}_{\text{偏差项}}\]

由于推理时无法获得真实 \(\mathbf{x}_0\)，优化条件方差成为唯一可操作的机制。

数据预测 vs 噪声预测¶

定理 3.4：数据预测参数化比噪声预测更有效地减少重建误差和条件熵。数据参数化直接以数据分布为目标，避免了 \(\boldsymbol{\epsilon}_t \mapsto \mathbf{x}_t \mapsto \mathbf{x}_0\) 的误差累积链路。

EVODiff 算法¶

基于数据预测的多步迭代，通过优化两个关键参数 \(\zeta_i\) 和 \(\eta_i\) 实现熵感知推理：

步骤 1 — 统一迭代：将显式和隐式改进统一为：

\[\frac{\mathbf{x}_{t_{i-1}}}{\sigma_{t_{i-1}}} - \frac{\mathbf{x}_{t_i}}{\sigma_{t_i}} = h_{t_i} \mathbf{x}_\theta(\mathbf{x}_{t_i}, t_i) + \frac{1}{2} h_{t_i}^2 \zeta_i \bar{B}_\theta(t_i; u_i)\]

步骤 2 — 求解 \(\zeta_i\)：通过最小化前向和反向估计差异，得到闭式解：

\[\zeta_i^* = -\frac{\text{vec}^T(D_i) \text{vec}(\tilde{P}_i)}{\sigma_{t_i} h_{t_i} \text{vec}^T(D_i) \text{vec}(D_i)}\]

步骤 3 — 求解 \(\eta_i\)：平衡隐式和显式梯度误差：

\[\eta_i^* = -\frac{\text{vec}^T(\tilde{B}_i) \text{vec}(B_\theta(t_i, l_i))}{\text{vec}^T(\tilde{B}_i) \text{vec}(\tilde{B}_i)}\]

步骤 4 — 映射为可用参数：

\[\eta_i = \text{Sigmoid}(|\eta_i^*|), \quad \zeta_i = \text{Sigmoid}(-(|\zeta_i^*| - \mu))\]

算法具有二阶全局收敛性，局部误差为 \(\mathcal{O}(h_{t_i}^3)\)。

实验关键数据¶

CIFAR-10（EDM，50k 样本）¶

方法	NFE=5 FID↓	NFE=8 FID↓	NFE=10 FID↓	NFE=12 FID↓
DPM-Solver++	27.96	8.40	5.10	3.70
UniPC	27.03	7.67	3.98	2.76
EVODiff	17.84	3.98	2.78	2.30

FFHQ-64（EDM，50k 样本）¶

方法	NFE=5 FID↓	NFE=10 FID↓	NFE=15 FID↓	NFE=20 FID↓
DPM-Solver++	25.08	6.81	3.80	3.00
UniPC	28.87	6.65	3.40	2.69
EVODiff	19.65	5.31	3.04	2.66

ImageNet-256（ADM，10k 样本）¶

方法	NFE=5 FID↓	NFE=10 FID↓	NFE=15 FID↓	NFE=20 FID↓
DPM-Solver++	16.62	8.68	7.80	7.51
DPM-Solver-v3	14.92	8.14	7.70	7.42
EVODiff	13.98	8.14	7.48	7.25

CIFAR-10 NFE=10 时 FID 从 5.10 降至 2.78，降幅 45.5%
ImageNet-256 上将 NFE 从 20 降至 15 即可获得高质量样本，节省 25% 计算
文本到图像生成中也减少了伪影

亮点¶

⭐ 首次从信息论角度系统分析扩散推理，建立条件熵减少框架
⭐ 理论证明数据预测优于噪声预测参数化
⭐ 方差优化参数 \(\zeta_i\)、\(\eta_i\) 具有闭式解，计算开销极小
无需额外训练或参考数据（不同于 DPM-Solver-v3）
统一解释了 DPM-Solver 和 EDM Heun 迭代的加速机制

局限性 / 可改进方向¶

假设去噪步间估计噪声的独立性，实际中共享参数可能引入依赖
理论分析主要基于高斯假设，对非高斯分布的适用性有待验证
仅关注确定性采样（ODE），尚未扩展到随机采样（SDE）路径
位移参数 \(\mu\) 需手动调节

与相关工作的对比¶

特性	DDIM	DPM-Solver	UniPC	DPM-Solver-v3	EVODiff
梯度方法	✗	✓	✓	✓	✓
需要参考 \(\tilde{\mathbf{x}}_0\)	✗	✗	✗	✓	✗
方差项优化	✓	✓	✓	✓	✓
熵感知	✗	✗	✗	✗	✓

启发与关联¶

信息论视角可推广到视频生成、3D 生成等多步扩散场景
条件熵框架可能用于指导采样调度（time schedule）的自动设计
方差优化思想可与 consistency model、rectified flow 结合

评分¶

新颖性: ⭐⭐⭐⭐ (信息论视角切入点新颖)
实验充分度: ⭐⭐⭐⭐⭐ (多数据集、多模型、多 NFE 全面对比)
写作质量: ⭐⭐⭐⭐ (理论推导清晰，符号体系统一)
价值: ⭐⭐⭐⭐ (即插即用的推理加速方法，实用性强)