跳转至

PPCL: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

会议: CVPR 2026
arXiv: 2511.16156
代码: 暂无
领域: 模型压缩 / 扩散模型
关键词: diffusion transformer, model pruning, layer pruning, knowledge distillation, contiguous redundancy

一句话总结

提出 PPCL 框架对大型扩散 Transformer (DiT, 8-20B 参数) 进行结构化剪枝: 通过线性探针+CKA 一阶差分识别连续冗余层区间, 深度方向+宽度方向联合剪枝, 搭配即插即用交替蒸馏, 在 Qwen-Image 20B 上实现 50% 参数缩减, 仅 3% 生成质量下降.

研究背景与动机

  1. 领域现状: 扩散 Transformer (如 FLUX, Qwen-Image) 达 8-20B 参数, 部署成本极高.
  2. 现有痛点: (a) 已有剪枝方法针对 CNN 或小型 Transformer, 不适用于超大 DiT; (b) 非连续层剪枝破坏模型结构, 性能退化严重; (c) 缺乏系统性的 DiT 冗余分析方法.
  3. 核心矛盾: DiT 的冗余是连续分布的 (相邻多层做类似的事), 但现有剪枝方法逐层独立评估, 忽视了这种连续性.
  4. 本文要解决什么: 系统性识别 DiT 中的连续冗余层, 并设计保持生成质量的剪枝+蒸馏策略.
  5. 切入角度: 用线性探针和 CKA 一阶差分分析层间表示变化, 发现连续冗余区间, 整段移除.
  6. 核心idea一句话: 连续层移除优于非连续移除, 因为 DiT 的冗余沿深度方向连续分布.

方法详解

整体框架

三步: (1) 线性探针 + CKA 分析识别冗余层区间; (2) 深度剪枝 (连续层移除) + 宽度剪枝 (文本流和 FFN 替换为线性投影); (3) 非顺序交替蒸馏恢复性能.

关键设计

  1. 冗余层检测:
  2. 做什么: 识别哪些连续层区间是冗余的
  3. 核心思路: 线性探针测量每层的 substitutability (可替代性), CKA 一阶差分测量相邻层表示相似度
  4. 设计动机: 层可替代性比直接移除影响更可靠

  5. 深度+宽度联合剪枝:

  6. 做什么: 深度方向移除整段连续层, 宽度方向压缩保留层的文本流和 FFN
  7. 核心思路: 深度剪枝连续移除, 宽度剪枝用小型线性投影替换大型组件
  8. 设计动机: 联合剪枝比单一方向更高效

  9. 非顺序交替蒸馏:

  10. 做什么: 用教师模型的前驱层输出指导学生模型
  11. 核心思路: 学生模型每层接收教师模型对应前驱层的输出, 而非简单逐层对齐
  12. 设计动机: 层被移除后, 直接逐层蒸馏会产生对齐偏移

训练策略

  • 支持动态推理时剪枝 (无需重训)
  • 即插即用: 复用原始模型权重

实验关键数据

主实验: Qwen-Image 20B

模型 参数 (B) 显存 % 延迟 (ms) GenEval LongText-EN
Base 20 100 2625 0.870 0.943
PPCL(14B) 14 79.4 1792 0.847 0.929
PPCL(10B) 10 59.5 1340 0.801 0.907

消融实验

配置 加速比 质量下降
仅深度剪枝 1.3x ~2-3%
深度+宽度联合 1.8x ~3%

关键发现

  • 连续层移除一致优于非连续移除, 揭示 DiT 冗余的深度连续性
  • 层可替代性 (线性探针) 比直接移除影响更可靠
  • 50% 参数缩减下仅 3% 质量下降

亮点与洞察

  • 连续冗余是 DiT 的固有特性: 不同于 CNN 的分散冗余, DiT 的相邻层做类似变换
  • 线性探针作为冗余度量: 比常见的层移除敏感度分析更稳定且计算更轻
  • 即插即用蒸馏: 利用教师前驱层输出对齐, 避免层对齐偏移

局限性 / 可改进方向

  • 仅在 Qwen-Image 验证, 未测试 FLUX/SD3 等其他 DiT
  • 主观生成质量评估有限, 缺乏大规模人工评估
  • 蒸馏阶段仍需一定计算资源

相关工作与启发

  • vs TinyFusion: TinyFusion 针对 UNet 扩散模型, 本文首次系统处理超大 DiT
  • vs LayerPrune: 逐层独立评估, 忽视连续性, 性能不如 PPCL

评分

  • 新颖性: ⭐⭐⭐⭐ 连续冗余发现和交替蒸馏是有效创新
  • 实验充分度: ⭐⭐⭐ 仅一个基线模型, 对比有限
  • 写作质量: ⭐⭐⭐⭐ 分析方法描述清晰
  • 价值: ⭐⭐⭐⭐ 解决了超大 DiT 部署的实际问题