Accelerating Parallel Diffusion Model Serving with Residual Compression¶

会议: NeurIPS 2025
arXiv: 2507.17511
代码: GitHub
领域: 扩散模型 / 系统优化 / 模型服务
关键词: parallel inference, communication compression, residual compression, diffusion model serving, sequence parallelism

一句话总结¶

提出 CompactFusion 框架，通过残差压缩（仅传输相邻去噪步骤间的激活差异而非完整激活）来消除并行扩散推理中的通信冗余，在 4×L20 上实现 3.0× 加速且生成质量远优于 DistriFusion，在模拟以太网带宽下实现 6.7× 加速，甚至在 100× 压缩下仍优于 DistriFusion。

研究背景与动机¶

领域现状：扩散模型（如 FLUX.1 12B 参数）规模快速增长，单 GPU 已无法满足实时推理延迟要求，多设备并行推理成为必需。主流并行策略（Sequence Parallel、Patch Parallel）需要在设备间交换大量激活张量。
现有痛点：(a) 互联带宽增速远低于算力增速（A100→H100 算力涨 6×，NVLink 带宽仅涨 1.5×），通信成为瓶颈；(b) FLUX.1 标准 patch 并行每张图每 GPU 需传输约 60GB 激活，在 PCIe 上占推理时间 45%+；(c) 现有方法（DistriFusion、PipeFusion）用"错位并行"复用上一步的过时激活来重叠通信与计算，但质量退化明显、数据量不减、集成复杂。
核心矛盾：扩散模型相邻步骤的激活高度相似（时间冗余），但现有方法仍然传输完整激活——用重叠掩盖冗余而非消除冗余。
本文要解决什么？
如何真正减少通信数据量而非仅仅掩盖通信延迟？
如何在激进压缩下仍保持高生成质量？
切入角度：既然相邻步的激活差异（残差）远小于激活本身，压缩残差比压缩完整激活能以更低的误差实现更高的压缩率——消除冗余而非隐藏冗余。
核心 idea 一句话：传输"激活变化量"（残差）而非"激活全量"，残差幅度小→压缩误差低→可激进压缩到 100×+ 仍保质量。

方法详解¶

整体框架¶

CompactFusion 在并行扩散推理的通信层插入残差压缩模块。每个去噪步骤中，设备不再传输完整激活 \(a_t\)，而是计算残差 \(\Delta_t = a_t - \hat{a}_{t-1}\)（与上一步重建值的差），压缩后传输，接收端重建 \(\hat{a}_t = \hat{a}_{t-1} + C(\Delta_t)\)。配合误差反馈防止误差累积。整个框架与模型逻辑和并行策略解耦，仅修改通信原语。

关键设计¶

残差压缩（Residual Compression）
做什么：传输压缩后的步间残差而非完整激活。
核心思路：扩散模型时间冗余→残差 \(\|\Delta_t\| \ll \|a_t\|\)→对小幅度信号做压缩，失真比例更低。实验验证：1-bit 二值化下，直接压缩完整激活导致图像完全崩塌，但压缩残差产生干净的重建。
设计动机：消除冗余比掩盖冗余更根本。DistriFusion 用过时激活做重叠，数据量不减；CompactFusion 直接减少数据量到 <1%。
误差反馈（Error Feedback）
做什么：防止压缩误差在步骤间累积。
核心思路：每步压缩后，将未传输的残差误差 \(e_t = \Delta_t - C(\Delta_t)\) 存储在本地，加入下一步的残差中再压缩。这样误差被"循环利用"而非丢弃，防止重建状态偏离真实轨迹。理论分析（Proposition 3.1）证明残差压缩+误差反馈的稳态误差上界远小于直接压缩：\(v^{\text{residual}}/v^{\text{naive}} = (\sigma_\Delta^2 / \sigma_a^2) \cdot \text{ratio} \ll 1\)。
设计动机：无误差反馈时，残差压缩的总误差随步数线性增长；加入反馈后收敛到有界的稳态，使方法在 28-50 步推理中可靠。
极端压缩率的低秩策略
做什么：在 100×+ 压缩下仍保持质量。
核心思路：量化饱和于 1-bit (16×)，稀疏化在扩散中崩塌（100× 稀疏下大部分值永远不更新）。低秩近似 \(X \approx UV^T\) 能覆盖所有坐标且大幅减少通信量。用 subspace iteration 替代 SVD（快 60 倍以满足 ~1ms 压缩预算）。关键洞察：扩散残差是高秩的但每次传输限于低秩子空间——"高秩/低秩不匹配"是瓶颈。解决方案：用 INT4 量化低秩矩阵，在相同带宽下提升可用秩（覆盖更多方向），牺牲精度换取方向覆盖度。
设计动机：实验验证方向覆盖度比逐步精度更重要——扩展秩覆盖（+ INT4 量化）比提升近似最优性（更多迭代）产生更好的生成质量。
系统协同设计
优化的 GPU 压缩内核：N:M block sparsifier（避免 TopK 的排序和不规则内存访问）
延迟隐藏：压缩与通信并行执行
易集成：仅包装标准通信原语，不修改模型代码或并行 pipeline，核心代码 <20 行

损失函数 / 训练策略¶

无训练——纯推理时压缩方案，直接应用于 off-the-shelf 模型

实验关键数据¶

主实验：FLUX.1-dev 4×L20 (PCIe)¶

方法	延迟	FID↓	LPIPS↓
Sequence Parallel (无压缩)	10.89s	baseline	baseline
DistriFusion	8.05s	9.91	0.310
PipeFusion	9.49s	6.72	0.250
Compact-1bit (16×)	7.46s	7.08	0.260
Compact-2bit (8×)	7.57s	3.26	0.114
Compact-Lowrank (100×)	10.60s	8.68	0.275

Compact-2bit 的 FID (3.26) 和 LPIPS (0.114) 远优于 DistriFusion (9.91/0.310)。

极端压缩：100× 仍优于 DistriFusion¶

压缩方法	压缩率	FID↓
DistriFusion	1× (过时激活)	9.91
Compact-Lowrank	100.05×	8.68

传输 <1% 的原始数据仍然比传输全部过时数据质量更好。

跨硬件/网络条件¶

硬件	方法	加速比
4×H20 (NVLink)	CompactFusion	3.0×
4×L20 (PCIe)	CompactFusion	3.0×
模拟以太网	CompactFusion vs DistriFusion	6.7×

关键发现¶

残差压缩 vs 错位并行：残差方法在所有指标上全面优于 DistriFusion/PipeFusion——更低延迟+更高质量，因为避免了过时激活
方向覆盖度 > 逐步精度：INT4 量化低秩矩阵（扩展秩）比增加 subspace iteration（提升精度）效果更好
通信密集型策略变得可行：CompactFusion 使 Sequence Parallel 在低带宽网络上也能高效运行，而 DistriFusion 在此场景下完全失效
视频模型同样有效：在 CogVideoX-2b 上也验证了方法的有效性
极端鲁棒：从 2× 到 100×+ 压缩率，质量退化是平缓的

亮点与洞察¶

"消除冗余"vs"掩盖冗余"的范式转换是本文最核心的洞察：DistriFusion 试图用重叠来隐藏不变的通信量，CompactFusion 直接减少通信量。
误差反馈的引入解决了残差压缩的误差累积问题，有理论保证和实验验证。源自梯度压缩领域的技术迁移到推理压缩中非常自然。
"牺牲精度换覆盖度"的低秩策略是一个精彩的实践洞察——在极端压缩下，覆盖更多更新方向比精确逼近少数方向更重要。
极致的工程解耦：<20 行核心代码、适配多框架、不改模型逻辑——这是系统工作应有的优雅。

局限性 / 可改进方向¶

第一步需要 warmup：第一步无历史激活，需传输完整数据（可接受但非零开销）
极端低秩可能在特定步骤失效：噪声水平变化剧烈的步骤（如最初几步）残差可能较大
仅验证 Sequence Parallel：虽然声称通用，但实验主要在 SP 上，Tensor Parallel 等策略未验证
低秩 subspace iteration 的质量：非最优近似在某些高频细节上可能有可见退化

评分¶

新颖性: ⭐⭐⭐⭐ 残差压缩的核心思路简洁有力，虽源自梯度压缩但首次用于推理加速
实验充分度: ⭐⭐⭐⭐⭐ 多模型(图像+视频)+多硬件(NVLink/PCIe/Ethernet)+多压缩率+理论分析+人类评估
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、插图精美、理论和实验完美配合
价值: ⭐⭐⭐⭐⭐ 直接可用于生产部署，3× 加速+质量提升，代码开源，实际价值极高