Accelerating Parallel Diffusion Model Serving with Residual Compression¶
会议: NeurIPS 2025
arXiv: 2507.17511
代码: GitHub
领域: 扩散模型 / 系统优化 / 模型服务
关键词: parallel inference, communication compression, residual compression, diffusion model serving, sequence parallelism
一句话总结¶
提出 CompactFusion 框架,通过残差压缩(仅传输相邻去噪步骤间的激活差异而非完整激活)来消除并行扩散推理中的通信冗余,在 4×L20 上实现 3.0× 加速且生成质量远优于 DistriFusion,在模拟以太网带宽下实现 6.7× 加速,甚至在 100× 压缩下仍优于 DistriFusion。
研究背景与动机¶
-
领域现状:扩散模型(如 FLUX.1 12B 参数)规模快速增长,单 GPU 已无法满足实时推理延迟要求,多设备并行推理成为必需。主流并行策略(Sequence Parallel、Patch Parallel)需要在设备间交换大量激活张量。
-
现有痛点:(a) 互联带宽增速远低于算力增速(A100→H100 算力涨 6×,NVLink 带宽仅涨 1.5×),通信成为瓶颈;(b) FLUX.1 标准 patch 并行每张图每 GPU 需传输约 60GB 激活,在 PCIe 上占推理时间 45%+;(c) 现有方法(DistriFusion、PipeFusion)用"错位并行"复用上一步的过时激活来重叠通信与计算,但质量退化明显、数据量不减、集成复杂。
-
核心矛盾:扩散模型相邻步骤的激活高度相似(时间冗余),但现有方法仍然传输完整激活——用重叠掩盖冗余而非消除冗余。
-
本文要解决什么?
- 如何真正减少通信数据量而非仅仅掩盖通信延迟?
-
如何在激进压缩下仍保持高生成质量?
-
切入角度:既然相邻步的激活差异(残差)远小于激活本身,压缩残差比压缩完整激活能以更低的误差实现更高的压缩率——消除冗余而非隐藏冗余。
-
核心 idea 一句话:传输"激活变化量"(残差)而非"激活全量",残差幅度小→压缩误差低→可激进压缩到 100×+ 仍保质量。
方法详解¶
整体框架¶
CompactFusion 在并行扩散推理的通信层插入残差压缩模块。每个去噪步骤中,设备不再传输完整激活 \(a_t\),而是计算残差 \(\Delta_t = a_t - \hat{a}_{t-1}\)(与上一步重建值的差),压缩后传输,接收端重建 \(\hat{a}_t = \hat{a}_{t-1} + C(\Delta_t)\)。配合误差反馈防止误差累积。整个框架与模型逻辑和并行策略解耦,仅修改通信原语。
关键设计¶
- 残差压缩(Residual Compression)
- 做什么:传输压缩后的步间残差而非完整激活。
- 核心思路:扩散模型时间冗余→残差 \(\|\Delta_t\| \ll \|a_t\|\)→对小幅度信号做压缩,失真比例更低。实验验证:1-bit 二值化下,直接压缩完整激活导致图像完全崩塌,但压缩残差产生干净的重建。
-
设计动机:消除冗余比掩盖冗余更根本。DistriFusion 用过时激活做重叠,数据量不减;CompactFusion 直接减少数据量到 <1%。
-
误差反馈(Error Feedback)
- 做什么:防止压缩误差在步骤间累积。
- 核心思路:每步压缩后,将未传输的残差误差 \(e_t = \Delta_t - C(\Delta_t)\) 存储在本地,加入下一步的残差中再压缩。这样误差被"循环利用"而非丢弃,防止重建状态偏离真实轨迹。理论分析(Proposition 3.1)证明残差压缩+误差反馈的稳态误差上界远小于直接压缩:\(v^{\text{residual}}/v^{\text{naive}} = (\sigma_\Delta^2 / \sigma_a^2) \cdot \text{ratio} \ll 1\)。
-
设计动机:无误差反馈时,残差压缩的总误差随步数线性增长;加入反馈后收敛到有界的稳态,使方法在 28-50 步推理中可靠。
-
极端压缩率的低秩策略
- 做什么:在 100×+ 压缩下仍保持质量。
- 核心思路:量化饱和于 1-bit (16×),稀疏化在扩散中崩塌(100× 稀疏下大部分值永远不更新)。低秩近似 \(X \approx UV^T\) 能覆盖所有坐标且大幅减少通信量。用 subspace iteration 替代 SVD(快 60 倍以满足 ~1ms 压缩预算)。关键洞察:扩散残差是高秩的但每次传输限于低秩子空间——"高秩/低秩不匹配"是瓶颈。解决方案:用 INT4 量化低秩矩阵,在相同带宽下提升可用秩(覆盖更多方向),牺牲精度换取方向覆盖度。
-
设计动机:实验验证方向覆盖度比逐步精度更重要——扩展秩覆盖(+ INT4 量化)比提升近似最优性(更多迭代)产生更好的生成质量。
-
系统协同设计
- 优化的 GPU 压缩内核:N:M block sparsifier(避免 TopK 的排序和不规则内存访问)
- 延迟隐藏:压缩与通信并行执行
- 易集成:仅包装标准通信原语,不修改模型代码或并行 pipeline,核心代码 <20 行
损失函数 / 训练策略¶
- 无训练——纯推理时压缩方案,直接应用于 off-the-shelf 模型
实验关键数据¶
主实验:FLUX.1-dev 4×L20 (PCIe)¶
| 方法 | 延迟 | FID↓ | LPIPS↓ |
|---|---|---|---|
| Sequence Parallel (无压缩) | 10.89s | baseline | baseline |
| DistriFusion | 8.05s | 9.91 | 0.310 |
| PipeFusion | 9.49s | 6.72 | 0.250 |
| Compact-1bit (16×) | 7.46s | 7.08 | 0.260 |
| Compact-2bit (8×) | 7.57s | 3.26 | 0.114 |
| Compact-Lowrank (100×) | 10.60s | 8.68 | 0.275 |
Compact-2bit 的 FID (3.26) 和 LPIPS (0.114) 远优于 DistriFusion (9.91/0.310)。
极端压缩:100× 仍优于 DistriFusion¶
| 压缩方法 | 压缩率 | FID↓ |
|---|---|---|
| DistriFusion | 1× (过时激活) | 9.91 |
| Compact-Lowrank | 100.05× | 8.68 |
传输 <1% 的原始数据仍然比传输全部过时数据质量更好。
跨硬件/网络条件¶
| 硬件 | 方法 | 加速比 |
|---|---|---|
| 4×H20 (NVLink) | CompactFusion | 3.0× |
| 4×L20 (PCIe) | CompactFusion | 3.0× |
| 模拟以太网 | CompactFusion vs DistriFusion | 6.7× |
关键发现¶
- 残差压缩 vs 错位并行:残差方法在所有指标上全面优于 DistriFusion/PipeFusion——更低延迟+更高质量,因为避免了过时激活
- 方向覆盖度 > 逐步精度:INT4 量化低秩矩阵(扩展秩)比增加 subspace iteration(提升精度)效果更好
- 通信密集型策略变得可行:CompactFusion 使 Sequence Parallel 在低带宽网络上也能高效运行,而 DistriFusion 在此场景下完全失效
- 视频模型同样有效:在 CogVideoX-2b 上也验证了方法的有效性
- 极端鲁棒:从 2× 到 100×+ 压缩率,质量退化是平缓的
亮点与洞察¶
- "消除冗余"vs"掩盖冗余"的范式转换是本文最核心的洞察:DistriFusion 试图用重叠来隐藏不变的通信量,CompactFusion 直接减少通信量。
- 误差反馈的引入解决了残差压缩的误差累积问题,有理论保证和实验验证。源自梯度压缩领域的技术迁移到推理压缩中非常自然。
- "牺牲精度换覆盖度"的低秩策略是一个精彩的实践洞察——在极端压缩下,覆盖更多更新方向比精确逼近少数方向更重要。
- 极致的工程解耦:<20 行核心代码、适配多框架、不改模型逻辑——这是系统工作应有的优雅。
局限性 / 可改进方向¶
- 第一步需要 warmup:第一步无历史激活,需传输完整数据(可接受但非零开销)
- 极端低秩可能在特定步骤失效:噪声水平变化剧烈的步骤(如最初几步)残差可能较大
- 仅验证 Sequence Parallel:虽然声称通用,但实验主要在 SP 上,Tensor Parallel 等策略未验证
- 低秩 subspace iteration 的质量:非最优近似在某些高频细节上可能有可见退化
相关工作与启发¶
- vs DistriFusion:DistriFusion 用过时激活做重叠,质量差且数据量不减;CompactFusion 压缩残差,质量高且数据量减至 <1%
- vs PipeFusion:PipeFusion 是 pipeline 并行的错位方案,与本文方法正交可组合
- vs 梯度压缩 (PowerSGD, DeepGradComp):本文将梯度压缩中的残差压缩+误差反馈技术迁移到推理时的激活压缩——跨领域技术迁移的成功案例
评分¶
- 新颖性: ⭐⭐⭐⭐ 残差压缩的核心思路简洁有力,虽源自梯度压缩但首次用于推理加速
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型(图像+视频)+多硬件(NVLink/PCIe/Ethernet)+多压缩率+理论分析+人类评估
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、插图精美、理论和实验完美配合
- 价值: ⭐⭐⭐⭐⭐ 直接可用于生产部署,3× 加速+质量提升,代码开源,实际价值极高