PPCL: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers¶
会议: CVPR 2026
arXiv: 2511.16156
代码: 暂无
领域: 模型压缩 / 扩散模型
关键词: diffusion transformer, model pruning, layer pruning, knowledge distillation, contiguous redundancy
一句话总结¶
提出 PPCL 框架对大型扩散 Transformer (DiT, 8-20B 参数) 进行结构化剪枝: 通过线性探针+CKA 一阶差分识别连续冗余层区间, 深度方向+宽度方向联合剪枝, 搭配即插即用交替蒸馏, 在 Qwen-Image 20B 上实现 50% 参数缩减, 仅 3% 生成质量下降.
研究背景与动机¶
- 领域现状: 扩散 Transformer (如 FLUX, Qwen-Image) 达 8-20B 参数, 部署成本极高.
- 现有痛点: (a) 已有剪枝方法针对 CNN 或小型 Transformer, 不适用于超大 DiT; (b) 非连续层剪枝破坏模型结构, 性能退化严重; (c) 缺乏系统性的 DiT 冗余分析方法.
- 核心矛盾: DiT 的冗余是连续分布的 (相邻多层做类似的事), 但现有剪枝方法逐层独立评估, 忽视了这种连续性.
- 本文要解决什么: 系统性识别 DiT 中的连续冗余层, 并设计保持生成质量的剪枝+蒸馏策略.
- 切入角度: 用线性探针和 CKA 一阶差分分析层间表示变化, 发现连续冗余区间, 整段移除.
- 核心idea一句话: 连续层移除优于非连续移除, 因为 DiT 的冗余沿深度方向连续分布.
方法详解¶
整体框架¶
三步: (1) 线性探针 + CKA 分析识别冗余层区间; (2) 深度剪枝 (连续层移除) + 宽度剪枝 (文本流和 FFN 替换为线性投影); (3) 非顺序交替蒸馏恢复性能.
关键设计¶
- 冗余层检测:
- 做什么: 识别哪些连续层区间是冗余的
- 核心思路: 线性探针测量每层的 substitutability (可替代性), CKA 一阶差分测量相邻层表示相似度
-
设计动机: 层可替代性比直接移除影响更可靠
-
深度+宽度联合剪枝:
- 做什么: 深度方向移除整段连续层, 宽度方向压缩保留层的文本流和 FFN
- 核心思路: 深度剪枝连续移除, 宽度剪枝用小型线性投影替换大型组件
-
设计动机: 联合剪枝比单一方向更高效
-
非顺序交替蒸馏:
- 做什么: 用教师模型的前驱层输出指导学生模型
- 核心思路: 学生模型每层接收教师模型对应前驱层的输出, 而非简单逐层对齐
- 设计动机: 层被移除后, 直接逐层蒸馏会产生对齐偏移
训练策略¶
- 支持动态推理时剪枝 (无需重训)
- 即插即用: 复用原始模型权重
实验关键数据¶
主实验: Qwen-Image 20B¶
| 模型 | 参数 (B) | 显存 % | 延迟 (ms) | GenEval | LongText-EN |
|---|---|---|---|---|---|
| Base | 20 | 100 | 2625 | 0.870 | 0.943 |
| PPCL(14B) | 14 | 79.4 | 1792 | 0.847 | 0.929 |
| PPCL(10B) | 10 | 59.5 | 1340 | 0.801 | 0.907 |
消融实验¶
| 配置 | 加速比 | 质量下降 |
|---|---|---|
| 仅深度剪枝 | 1.3x | ~2-3% |
| 深度+宽度联合 | 1.8x | ~3% |
关键发现¶
- 连续层移除一致优于非连续移除, 揭示 DiT 冗余的深度连续性
- 层可替代性 (线性探针) 比直接移除影响更可靠
- 50% 参数缩减下仅 3% 质量下降
亮点与洞察¶
- 连续冗余是 DiT 的固有特性: 不同于 CNN 的分散冗余, DiT 的相邻层做类似变换
- 线性探针作为冗余度量: 比常见的层移除敏感度分析更稳定且计算更轻
- 即插即用蒸馏: 利用教师前驱层输出对齐, 避免层对齐偏移
局限性 / 可改进方向¶
- 仅在 Qwen-Image 验证, 未测试 FLUX/SD3 等其他 DiT
- 主观生成质量评估有限, 缺乏大规模人工评估
- 蒸馏阶段仍需一定计算资源
相关工作与启发¶
- vs TinyFusion: TinyFusion 针对 UNet 扩散模型, 本文首次系统处理超大 DiT
- vs LayerPrune: 逐层独立评估, 忽视连续性, 性能不如 PPCL
评分¶
- 新颖性: ⭐⭐⭐⭐ 连续冗余发现和交替蒸馏是有效创新
- 实验充分度: ⭐⭐⭐ 仅一个基线模型, 对比有限
- 写作质量: ⭐⭐⭐⭐ 分析方法描述清晰
- 价值: ⭐⭐⭐⭐ 解决了超大 DiT 部署的实际问题