PPCL: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers¶

会议: CVPR 2026
arXiv: 2511.16156
代码: 暂无
领域: 模型压缩 / 扩散模型
关键词: diffusion transformer, model pruning, layer pruning, knowledge distillation, contiguous redundancy

一句话总结¶

提出 PPCL 框架对大型扩散 Transformer (DiT, 8-20B 参数) 进行结构化剪枝: 通过线性探针+CKA 一阶差分识别连续冗余层区间, 深度方向+宽度方向联合剪枝, 搭配即插即用交替蒸馏, 在 Qwen-Image 20B 上实现 50% 参数缩减, 仅 3% 生成质量下降.

研究背景与动机¶

领域现状: 扩散 Transformer (如 FLUX, Qwen-Image) 达 8-20B 参数, 部署成本极高.
现有痛点: (a) 已有剪枝方法针对 CNN 或小型 Transformer, 不适用于超大 DiT; (b) 非连续层剪枝破坏模型结构, 性能退化严重; (c) 缺乏系统性的 DiT 冗余分析方法.
核心矛盾: DiT 的冗余是连续分布的 (相邻多层做类似的事), 但现有剪枝方法逐层独立评估, 忽视了这种连续性.
本文要解决什么: 系统性识别 DiT 中的连续冗余层, 并设计保持生成质量的剪枝+蒸馏策略.
切入角度: 用线性探针和 CKA 一阶差分分析层间表示变化, 发现连续冗余区间, 整段移除.
核心idea一句话: 连续层移除优于非连续移除, 因为 DiT 的冗余沿深度方向连续分布.

方法详解¶

整体框架¶

三步: (1) 线性探针 + CKA 分析识别冗余层区间; (2) 深度剪枝 (连续层移除) + 宽度剪枝 (文本流和 FFN 替换为线性投影); (3) 非顺序交替蒸馏恢复性能.

关键设计¶

冗余层检测:
做什么: 识别哪些连续层区间是冗余的
核心思路: 线性探针测量每层的 substitutability (可替代性), CKA 一阶差分测量相邻层表示相似度
设计动机: 层可替代性比直接移除影响更可靠
深度+宽度联合剪枝:
做什么: 深度方向移除整段连续层, 宽度方向压缩保留层的文本流和 FFN
核心思路: 深度剪枝连续移除, 宽度剪枝用小型线性投影替换大型组件
设计动机: 联合剪枝比单一方向更高效
非顺序交替蒸馏:
做什么: 用教师模型的前驱层输出指导学生模型
核心思路: 学生模型每层接收教师模型对应前驱层的输出, 而非简单逐层对齐
设计动机: 层被移除后, 直接逐层蒸馏会产生对齐偏移

训练策略¶

支持动态推理时剪枝 (无需重训)
即插即用: 复用原始模型权重

实验关键数据¶

主实验: Qwen-Image 20B¶

模型	参数 (B)	显存 %	延迟 (ms)	GenEval	LongText-EN
Base	20	100	2625	0.870	0.943
PPCL(14B)	14	79.4	1792	0.847	0.929
PPCL(10B)	10	59.5	1340	0.801	0.907

消融实验¶

配置	加速比	质量下降
仅深度剪枝	1.3x	~2-3%
深度+宽度联合	1.8x	~3%

关键发现¶

连续层移除一致优于非连续移除, 揭示 DiT 冗余的深度连续性
层可替代性 (线性探针) 比直接移除影响更可靠
50% 参数缩减下仅 3% 质量下降

亮点与洞察¶

连续冗余是 DiT 的固有特性: 不同于 CNN 的分散冗余, DiT 的相邻层做类似变换
线性探针作为冗余度量: 比常见的层移除敏感度分析更稳定且计算更轻
即插即用蒸馏: 利用教师前驱层输出对齐, 避免层对齐偏移

局限性 / 可改进方向¶

仅在 Qwen-Image 验证, 未测试 FLUX/SD3 等其他 DiT
主观生成质量评估有限, 缺乏大规模人工评估
蒸馏阶段仍需一定计算资源

评分¶

新颖性: ⭐⭐⭐⭐ 连续冗余发现和交替蒸馏是有效创新
实验充分度: ⭐⭐⭐ 仅一个基线模型, 对比有限
写作质量: ⭐⭐⭐⭐ 分析方法描述清晰
价值: ⭐⭐⭐⭐ 解决了超大 DiT 部署的实际问题