Modulated Diffusion: Accelerating Generative Modeling with Modulated Quantization¶

会议: ICML 2025
arXiv: 2506.22463
代码: https://github.com/WeizhiGao/MoDiff (有)
领域: Image Generation
关键词: 扩散模型加速, 量化, 缓存, 误差补偿, 训练后量化

一句话总结¶

MoDiff 提出了调制量化(Modulated Quantization)与误差补偿相结合的框架来加速扩散模型，将激活量化从 8-bit 降至 3-bit 且无性能损失，同时继承缓存和量化方法的双重优势。

领域现状：扩散模型在生成任务中表现卓越，但迭代采样带来巨大计算开销。加速技术主要包括：步数减少（蒸馏）、缓存（复用中间计算）和量化（低精度计算）。

现有痛点：缓存方法虽然避免冗余计算，但引入的近似误差会随时间步累积；量化方法在低比特（<8 bit）下生成质量显著下降；两者的组合更容易产生叠加误差。

核心矛盾：激进的加速（更低比特/更多缓存）与生成质量之间的根本矛盾。量化误差和缓存误差如何在数学上理解和控制？

本文目标：提供一个统一框架，深入分析缓存和量化的误差来源，并设计有效的误差补偿机制。

切入角度：从理论分析出发，揭示量化和缓存的内在联系，设计"调制量化"来动态调整量化参数以补偿误差。

核心 idea：通过调制量化参数来主动补偿扩散过程中的量化误差，在极低比特下保持生成质量。

缓存与量化的统一分析:
- 理论证明缓存方法本质上是一种特殊的量化——用前一步的值替代当前步等价于无限粗的量化
- 揭示了两者共同的误差来源：时间步间激活的变化量
- 设计动机：统一视角使得可以设计同时处理两种误差的框架
调制量化(Modulated Quantization):
- 为每个时间步 \(t\) 学习一组调制参数 \(\gamma_t, \beta_t\)
- 量化前对激活做调制变换：\(\hat{x} = \gamma_t \cdot Q(x) + \beta_t\)
- 调制参数通过最小化量化后输出与全精度输出的差距来学习
- 设计动机：不同时间步的激活分布差异很大（噪声大小不同），固定量化参数无法适配
误差补偿机制:
- 跟踪量化引入的残余误差，在后续步骤中补偿
- 理论推导误差的上界，确保补偿后的总误差可控
- 支持与缓存方法组合使用
- 设计动机：量化误差会在迭代采样中累积，需要显式的误差控制

调制参数通过最小化 MSE 损失学习：\(\min_{\gamma, \beta} \|f(x) - (\gamma \cdot Q(x) + \beta)\|^2\)
仅需少量校准数据（几百张图片的前向传播），无需完整重训练
支持逐层和逐时间步的参数优化

数据集	模型	比特数	FID↓	与全精度差异
CIFAR-10	DDPM	8-bit	基本无损	<0.5
CIFAR-10	DDPM	4-bit	轻微下降	~1-2
CIFAR-10	DDPM	3-bit	无明显下降	<1
LSUN	LDM	8-bit	基本无损	<0.5
LSUN	LDM	3-bit	无明显下降	<1