跳转至

AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models

会议: NeurIPS 2025
arXiv: 2510.20348
代码: 无
领域: 模型压缩 / 扩散模型量化
关键词: post-training quantization, diffusion model, error accumulation, multi-step simulation, memory efficiency

一句话总结

提出AccuQuant,一种用于扩散模型的训练后量化(PTQ)方法,通过在校准过程中显式模拟多个去噪步骤来最小化量化误差的累积效应,并通过新型目标函数将内存复杂度从O(n)降至O(1)。

背景与动机

扩散模型的推理需要数十步迭代去噪,每一步的量化误差会传递到下一步并逐步累积。现有PTQ方法(如标准校准方法)独立优化每个去噪步骤的量化参数——即逐步最小化全精度和量化版本之间的差异。这种独立优化忽略了误差在步骤间的级联效应:某一步的小量化误差可能在后续步骤中被放大,最终导致生成质量严重下降。

核心问题

  1. 扩散模型的量化误差在去噪采样过程中是累积的,独立逐步优化无法捕捉这种级联效应
  2. 如何在校准过程中考虑多步误差累积,而不会导致内存开销爆炸?
  3. 如何设计高效的目标函数使多步模拟在实际中可行?

方法详解

整体框架

AccuQuant在PTQ校准阶段,不再独立优化每个去噪步骤的量化参数,而是联合优化连续多个去噪步骤的输出差异。具体地,它模拟了扩散采样过程中的一小段轨迹(几个连续步骤),最小化这段轨迹上全精度模型和量化模型输出之间的累积差异。

关键设计

  1. 多步模拟校准:不同于传统PTQ逐步校准,AccuQuant在确定量化参数时,显式运行量化模型的多步去噪过程,将输出与全精度版本对比。这使校准能感知误差在步骤间的传播和放大。

  2. 高效内存管理:朴素的多步模拟需要O(n)的内存(n为去噪步数),因为需要存储每一步的中间激活。AccuQuant提出了新型目标函数,通过巧妙的计算重构将内存复杂度降至O(1),使方法在实际中可行。

  3. 与传统方法的对比:传统方法模仿的是扩散模型的"训练过程"(独立优化每步),而AccuQuant模仿的是"采样过程"(联合优化多步),更贴近实际推理场景。

实验关键数据

论文在多种扩散模型和标准基准上验证了AccuQuant的有效性和效率。由于HTML版本不可用,具体FID数值和比特宽度对比数据无法提取。

消融实验要点

  • 多步模拟的步数窗口大小对性能的影响
  • O(1)内存目标函数与朴素实现的对比
  • 不同比特宽度(4-bit, 6-bit, 8-bit)下的性能

亮点

  • 洞察深刻:从"误差累积"这一关键观察出发,自然地引出多步联合优化的解决方案
  • 从训练模拟到采样模拟的范式转变:更符合量化模型的实际使用场景
  • O(n)→O(1)的内存优化:使方法在长步数采样中仍然可行
  • 通用性:适用于多种扩散模型架构和生成任务

局限性 / 可改进方向

  • 多步模拟增加了校准阶段的计算时间
  • HTML不可用导致无法获取详细实验数据
  • 校准步数窗口的选择可能需要根据模型和任务调整

与相关工作的对比

  • vs 标准PTQ方法:传统PTQ独立校准每步,忽略误差累积;AccuQuant通过多步模拟显式考虑累积效应
  • vs 量化感知训练(QAT):QAT需要完整的重训练,AccuQuant是后训练方法,成本更低

启发与关联

  • 误差累积的观察可能适用于其他迭代推理过程的量化(如iterative refinement models)
  • 多步联合优化的思路可能启发LLM的自回归量化——也存在token-wise误差累积问题

评分

  • 新颖性: ⭐⭐⭐⭐ 从采样过程角度做量化校准是新颖的视角
  • 实验充分度: ⭐⭐⭐ 摘要提及多种任务和模型,但缺少详细数据
  • 写作质量: ⭐⭐⭐ 摘要清晰,HTML不可用限制了完整评估
  • 价值: ⭐⭐⭐⭐ 扩散模型量化的实用方法,O(1)内存是重要的工程贡献