跳转至

FAIR-Pruner: Leveraging Tolerance of Difference for Flexible Automatic Layer-Wise Neural Network Pruning

会议: CVPR 2026 arXiv: 2508.02291 代码: 无(审稿后开源) 领域: 模型压缩 关键词: 结构化剪枝, 非均匀逐层剪枝, Wasserstein 距离, 差异容忍度, 自动稀疏度分配

一句话总结

提出 FAIR-Pruner 结构化剪枝框架,通过 Tolerance of Differences(ToD)指标协调两个互补视角:基于类条件可分性的 Wasserstein Utilization Score(识别冗余单元)和基于 Taylor 展开的 Reconstruction Score(保护关键单元),自动确定逐层非均匀剪枝率且支持免搜索灵活调整压缩比,在 CIFAR-10/SVHN/ImageNet 上取得 SOTA。

研究背景与动机

神经网络剪枝是将大模型部署到资源受限设备的关键技术。当前面临两个挑战:

1) 单元重要性度量:性能保持视角(Taylor 展开评估移除损失影响)和架构效用视角(激活幅度、秩等结构性指标)各自独立,缺乏统一框架。

2) 逐层稀疏度分配:均匀剪枝在高压缩率下性能急剧下降;非均匀方法(RL 搜索、进化策略)计算昂贵,每换目标压缩率都需重新搜索。

核心矛盾:要实现高质量非均匀剪枝,又要避免昂贵的全局搜索

FAIR-Pruner 的切入:引入 ToD 度量"建议移除"和"应当保护"单元的重叠,通过预设水平 alpha 自动确定每层剪枝数量。Score 计算一次性,改变 alpha 只需毫秒级重计算。

方法详解

整体框架

工作流程:(1) 每层计算 U-Score 和 R-Score;(2) 逐步增大候选移除数量检查 ToD 是否不超过预设水平;(3) 取满足约束的最大值作为该层剪枝数量;(4) 移除 U-Score 最低的对应数量单元。

关键设计

  1. Wasserstein-based Utilization Score(U-Score):
  2. 做什么:衡量每个单元的类条件可分性
  3. 核心思路:U-Score 定义为所有类别对之间 1-Wasserstein 距离的最大值 \(\mathcal{U}_j^{(l)} = \sup_{k_1 \neq k_2} d(O_j^{(l)}(Z_{k_1}), O_j^{(l)}(Z_{k_2}))\)。用经验分布估计,卷积层用 Sliced Wasserstein 距离。作者证明了几乎必然收敛性
  4. 设计动机:单元有效当且仅当能区分至少两类;Wasserstein 距离比 KL 散度高维下更稳定

  5. Taylor-based Reconstruction Score(R-Score):

  6. 做什么:衡量移除单元对全局损失的影响
  7. 核心思路:一阶 Taylor 展开近似损失变化,单次反向传播即可计算
  8. 设计动机:R-Score 分布呈"长平台+少数高峰",适合做"保护"指标而非"移除"指标

  9. Tolerance of Differences(ToD)控制:

  10. 做什么:协调两个 score,自动确定每层剪枝数量
  11. 核心思路:U-Score 最低 m 个构成移除集,R-Score 最高 m 个构成保护集。\(\text{ToD}^{(l)}(m) = |\mathcal{R}^{(l)}(m) \cap \mathcal{P}^{(l)}(m)| / \max(m, 1)\)。剪枝数为满足 ToD <= alpha 的最大 m
  12. 设计动机:重叠低 = 安全剪枝;改变 alpha 无需重计算 score

损失函数 / 训练策略

  • One-shot 剪枝,不修改训练损失
  • 剪枝后标准微调(SGD, lr=0.001, momentum=0.9)
  • 高压缩率可迭代应用(Lottery Ticket 思路)
  • 640 样本即可获得稳定 U-Score

实验关键数据

主实验:ResNet-56 on CIFAR-10

方法 Top-1 (%) MFLOPs
Baseline 93.93 125.0
AMC (RL搜索) 91.90 62.9
ITPruner 93.43 59.5
MFP 93.56 59.3
FAIR-Pruner 93.64 57.8

消融实验

配置 关键观察 说明
U-Score+均匀 vs FAIR 67.8%PR: 80.27% vs 90.71% ToD分配比均匀高10.4%
Random+ToD vs Random+均匀 35.4%PR: 76.91% vs 10.5% ToD防止关键层过度剪枝
L1-norm+ToD vs L1-norm+均匀 各设置均提升 ToD可移植到已有指标

ResNet-50 on ImageNet + 推理加速

方法 Top-1 (%) MFLOPs
HRank 74.98 2300
ITPruner 75.28 1943
FAIR-Pruner 75.29 1932
Batch Size Baseline (26M) FAIR (15M) 加速比
1 40.7ms 30.4ms 1.34x
4 70.1ms 49.8ms 1.41x
8 118.9ms 86.7ms 1.37x

关键发现

  • ToD 核心价值在逐层分配:相同 U-Score 下 ToD vs 均匀可差 10+% 精度
  • 早期层自动获得低剪枝率、深层高剪枝率,与直觉一致
  • U-Score 平滑适合排序移除,R-Score 高峰适合保护识别,天然互补
  • ToD 控制压缩率精确且单调

亮点与洞察

  • "免搜索"是核心优势:改变目标压缩率只需调 alpha(毫秒级),RL/进化搜索每个比例都需重新搜索
  • 两个 score 互补性有坚实经验基础
  • 可扩展性优雅:ToD 分配可直接应用到 L1-norm、HRank 等任意指标

局限性 / 可改进方向

  • ToD 缺乏理论分析,alpha 最优选择依赖经验
  • 仅在中等规模模型验证,未测试 LLM 或 ViT
  • U-Score 对类别数极大场景计算开销显著
  • ResNet-50 on ImageNet 结果与 ITPruner 差异不大

相关工作与启发

  • AMC/MetaPruning 是非均匀分配代表,FAIR-Pruner 以"免搜索"替代
  • CPOT/SWAP 用 Wasserstein 距离但用途不同,本文聚焦类条件可分性
  • U-Score/R-Score 的"移除/保护"分治与 DKD 分解思路异曲同工

评分

  • 新颖性: ⭐⭐⭐⭐ ToD 概念新颖,Wasserstein U-Score 有独立价值
  • 实验充分度: ⭐⭐⭐⭐ 多数据集多架构 + 消融 + 可扩展性 + 计算复杂度分析
  • 写作质量: ⭐⭐⭐ 公式符号略繁但逻辑清晰
  • 价值: ⭐⭐⭐⭐ "免搜索非均匀层级分配"有明确实际价值