跳转至

Accelerating Parallel Diffusion Model Serving with Residual Compression

会议: NeurIPS 2025
arXiv: 2507.17511
代码: GitHub
领域: 扩散模型 / 系统优化 / 模型服务
关键词: parallel inference, communication compression, residual compression, diffusion model serving, sequence parallelism

一句话总结

提出 CompactFusion 框架,通过残差压缩(仅传输相邻去噪步骤间的激活差异而非完整激活)来消除并行扩散推理中的通信冗余,在 4×L20 上实现 3.0× 加速且生成质量远优于 DistriFusion,在模拟以太网带宽下实现 6.7× 加速,甚至在 100× 压缩下仍优于 DistriFusion。

研究背景与动机

  1. 领域现状:扩散模型(如 FLUX.1 12B 参数)规模快速增长,单 GPU 已无法满足实时推理延迟要求,多设备并行推理成为必需。主流并行策略(Sequence Parallel、Patch Parallel)需要在设备间交换大量激活张量。

  2. 现有痛点:(a) 互联带宽增速远低于算力增速(A100→H100 算力涨 6×,NVLink 带宽仅涨 1.5×),通信成为瓶颈;(b) FLUX.1 标准 patch 并行每张图每 GPU 需传输约 60GB 激活,在 PCIe 上占推理时间 45%+;(c) 现有方法(DistriFusion、PipeFusion)用"错位并行"复用上一步的过时激活来重叠通信与计算,但质量退化明显、数据量不减、集成复杂。

  3. 核心矛盾:扩散模型相邻步骤的激活高度相似(时间冗余),但现有方法仍然传输完整激活——用重叠掩盖冗余而非消除冗余。

  4. 本文要解决什么?

  5. 如何真正减少通信数据量而非仅仅掩盖通信延迟?
  6. 如何在激进压缩下仍保持高生成质量?

  7. 切入角度:既然相邻步的激活差异(残差)远小于激活本身,压缩残差比压缩完整激活能以更低的误差实现更高的压缩率——消除冗余而非隐藏冗余。

  8. 核心 idea 一句话:传输"激活变化量"(残差)而非"激活全量",残差幅度小→压缩误差低→可激进压缩到 100×+ 仍保质量。

方法详解

整体框架

CompactFusion 在并行扩散推理的通信层插入残差压缩模块。每个去噪步骤中,设备不再传输完整激活 \(a_t\),而是计算残差 \(\Delta_t = a_t - \hat{a}_{t-1}\)(与上一步重建值的差),压缩后传输,接收端重建 \(\hat{a}_t = \hat{a}_{t-1} + C(\Delta_t)\)。配合误差反馈防止误差累积。整个框架与模型逻辑和并行策略解耦,仅修改通信原语。

关键设计

  1. 残差压缩(Residual Compression)
  2. 做什么:传输压缩后的步间残差而非完整激活。
  3. 核心思路:扩散模型时间冗余→残差 \(\|\Delta_t\| \ll \|a_t\|\)→对小幅度信号做压缩,失真比例更低。实验验证:1-bit 二值化下,直接压缩完整激活导致图像完全崩塌,但压缩残差产生干净的重建。
  4. 设计动机:消除冗余比掩盖冗余更根本。DistriFusion 用过时激活做重叠,数据量不减;CompactFusion 直接减少数据量到 <1%。

  5. 误差反馈(Error Feedback)

  6. 做什么:防止压缩误差在步骤间累积。
  7. 核心思路:每步压缩后,将未传输的残差误差 \(e_t = \Delta_t - C(\Delta_t)\) 存储在本地,加入下一步的残差中再压缩。这样误差被"循环利用"而非丢弃,防止重建状态偏离真实轨迹。理论分析(Proposition 3.1)证明残差压缩+误差反馈的稳态误差上界远小于直接压缩:\(v^{\text{residual}}/v^{\text{naive}} = (\sigma_\Delta^2 / \sigma_a^2) \cdot \text{ratio} \ll 1\)
  8. 设计动机:无误差反馈时,残差压缩的总误差随步数线性增长;加入反馈后收敛到有界的稳态,使方法在 28-50 步推理中可靠。

  9. 极端压缩率的低秩策略

  10. 做什么:在 100×+ 压缩下仍保持质量。
  11. 核心思路:量化饱和于 1-bit (16×),稀疏化在扩散中崩塌(100× 稀疏下大部分值永远不更新)。低秩近似 \(X \approx UV^T\) 能覆盖所有坐标且大幅减少通信量。用 subspace iteration 替代 SVD(快 60 倍以满足 ~1ms 压缩预算)。关键洞察:扩散残差是高秩的但每次传输限于低秩子空间——"高秩/低秩不匹配"是瓶颈。解决方案:用 INT4 量化低秩矩阵,在相同带宽下提升可用秩(覆盖更多方向),牺牲精度换取方向覆盖度。
  12. 设计动机:实验验证方向覆盖度比逐步精度更重要——扩展秩覆盖(+ INT4 量化)比提升近似最优性(更多迭代)产生更好的生成质量。

  13. 系统协同设计

  14. 优化的 GPU 压缩内核:N:M block sparsifier(避免 TopK 的排序和不规则内存访问)
  15. 延迟隐藏:压缩与通信并行执行
  16. 易集成:仅包装标准通信原语,不修改模型代码或并行 pipeline,核心代码 <20 行

损失函数 / 训练策略

  • 无训练——纯推理时压缩方案,直接应用于 off-the-shelf 模型

实验关键数据

主实验:FLUX.1-dev 4×L20 (PCIe)

方法 延迟 FID↓ LPIPS↓
Sequence Parallel (无压缩) 10.89s baseline baseline
DistriFusion 8.05s 9.91 0.310
PipeFusion 9.49s 6.72 0.250
Compact-1bit (16×) 7.46s 7.08 0.260
Compact-2bit (8×) 7.57s 3.26 0.114
Compact-Lowrank (100×) 10.60s 8.68 0.275

Compact-2bit 的 FID (3.26) 和 LPIPS (0.114) 远优于 DistriFusion (9.91/0.310)。

极端压缩:100× 仍优于 DistriFusion

压缩方法 压缩率 FID↓
DistriFusion 1× (过时激活) 9.91
Compact-Lowrank 100.05× 8.68

传输 <1% 的原始数据仍然比传输全部过时数据质量更好。

跨硬件/网络条件

硬件 方法 加速比
4×H20 (NVLink) CompactFusion 3.0×
4×L20 (PCIe) CompactFusion 3.0×
模拟以太网 CompactFusion vs DistriFusion 6.7×

关键发现

  • 残差压缩 vs 错位并行:残差方法在所有指标上全面优于 DistriFusion/PipeFusion——更低延迟+更高质量,因为避免了过时激活
  • 方向覆盖度 > 逐步精度:INT4 量化低秩矩阵(扩展秩)比增加 subspace iteration(提升精度)效果更好
  • 通信密集型策略变得可行:CompactFusion 使 Sequence Parallel 在低带宽网络上也能高效运行,而 DistriFusion 在此场景下完全失效
  • 视频模型同样有效:在 CogVideoX-2b 上也验证了方法的有效性
  • 极端鲁棒:从 2× 到 100×+ 压缩率,质量退化是平缓的

亮点与洞察

  • "消除冗余"vs"掩盖冗余"的范式转换是本文最核心的洞察:DistriFusion 试图用重叠来隐藏不变的通信量,CompactFusion 直接减少通信量。
  • 误差反馈的引入解决了残差压缩的误差累积问题,有理论保证和实验验证。源自梯度压缩领域的技术迁移到推理压缩中非常自然。
  • "牺牲精度换覆盖度"的低秩策略是一个精彩的实践洞察——在极端压缩下,覆盖更多更新方向比精确逼近少数方向更重要。
  • 极致的工程解耦:<20 行核心代码、适配多框架、不改模型逻辑——这是系统工作应有的优雅。

局限性 / 可改进方向

  • 第一步需要 warmup:第一步无历史激活,需传输完整数据(可接受但非零开销)
  • 极端低秩可能在特定步骤失效:噪声水平变化剧烈的步骤(如最初几步)残差可能较大
  • 仅验证 Sequence Parallel:虽然声称通用,但实验主要在 SP 上,Tensor Parallel 等策略未验证
  • 低秩 subspace iteration 的质量:非最优近似在某些高频细节上可能有可见退化

相关工作与启发

  • vs DistriFusion:DistriFusion 用过时激活做重叠,质量差且数据量不减;CompactFusion 压缩残差,质量高且数据量减至 <1%
  • vs PipeFusion:PipeFusion 是 pipeline 并行的错位方案,与本文方法正交可组合
  • vs 梯度压缩 (PowerSGD, DeepGradComp):本文将梯度压缩中的残差压缩+误差反馈技术迁移到推理时的激活压缩——跨领域技术迁移的成功案例

评分

  • 新颖性: ⭐⭐⭐⭐ 残差压缩的核心思路简洁有力,虽源自梯度压缩但首次用于推理加速
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型(图像+视频)+多硬件(NVLink/PCIe/Ethernet)+多压缩率+理论分析+人类评估
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、插图精美、理论和实验完美配合
  • 价值: ⭐⭐⭐⭐⭐ 直接可用于生产部署,3× 加速+质量提升,代码开源,实际价值极高