FAIR-Pruner: Leveraging Tolerance of Difference for Flexible Automatic Layer-Wise Neural Network Pruning¶

会议: CVPR 2026 arXiv: 2508.02291 代码: 无（审稿后开源）领域: 模型压缩 关键词: 结构化剪枝, 非均匀逐层剪枝, Wasserstein 距离, 差异容忍度, 自动稀疏度分配

一句话总结¶

提出 FAIR-Pruner 结构化剪枝框架，通过 Tolerance of Differences（ToD）指标协调两个互补视角：基于类条件可分性的 Wasserstein Utilization Score（识别冗余单元）和基于 Taylor 展开的 Reconstruction Score（保护关键单元），自动确定逐层非均匀剪枝率且支持免搜索灵活调整压缩比，在 CIFAR-10/SVHN/ImageNet 上取得 SOTA。

研究背景与动机¶

神经网络剪枝是将大模型部署到资源受限设备的关键技术。当前面临两个挑战：

1) 单元重要性度量：性能保持视角（Taylor 展开评估移除损失影响）和架构效用视角（激活幅度、秩等结构性指标）各自独立，缺乏统一框架。

2) 逐层稀疏度分配：均匀剪枝在高压缩率下性能急剧下降；非均匀方法（RL 搜索、进化策略）计算昂贵，每换目标压缩率都需重新搜索。

核心矛盾：要实现高质量非均匀剪枝，又要避免昂贵的全局搜索。

FAIR-Pruner 的切入：引入 ToD 度量"建议移除"和"应当保护"单元的重叠，通过预设水平 alpha 自动确定每层剪枝数量。Score 计算一次性，改变 alpha 只需毫秒级重计算。

方法详解¶

整体框架¶

工作流程：(1) 每层计算 U-Score 和 R-Score；(2) 逐步增大候选移除数量检查 ToD 是否不超过预设水平；(3) 取满足约束的最大值作为该层剪枝数量；(4) 移除 U-Score 最低的对应数量单元。

关键设计¶

Wasserstein-based Utilization Score（U-Score）:
做什么：衡量每个单元的类条件可分性
核心思路：U-Score 定义为所有类别对之间 1-Wasserstein 距离的最大值 \(\mathcal{U}_j^{(l)} = \sup_{k_1 \neq k_2} d(O_j^{(l)}(Z_{k_1}), O_j^{(l)}(Z_{k_2}))\)。用经验分布估计，卷积层用 Sliced Wasserstein 距离。作者证明了几乎必然收敛性
设计动机：单元有效当且仅当能区分至少两类；Wasserstein 距离比 KL 散度高维下更稳定
Taylor-based Reconstruction Score（R-Score）:
做什么：衡量移除单元对全局损失的影响
核心思路：一阶 Taylor 展开近似损失变化，单次反向传播即可计算
设计动机：R-Score 分布呈"长平台+少数高峰"，适合做"保护"指标而非"移除"指标
Tolerance of Differences（ToD）控制:
做什么：协调两个 score，自动确定每层剪枝数量
核心思路：U-Score 最低 m 个构成移除集，R-Score 最高 m 个构成保护集。\(\text{ToD}^{(l)}(m) = |\mathcal{R}^{(l)}(m) \cap \mathcal{P}^{(l)}(m)| / \max(m, 1)\)。剪枝数为满足 ToD <= alpha 的最大 m
设计动机：重叠低 = 安全剪枝；改变 alpha 无需重计算 score

损失函数 / 训练策略¶

One-shot 剪枝，不修改训练损失
剪枝后标准微调（SGD, lr=0.001, momentum=0.9）
高压缩率可迭代应用（Lottery Ticket 思路）
640 样本即可获得稳定 U-Score

实验关键数据¶

主实验：ResNet-56 on CIFAR-10¶

方法	Top-1 (%)	MFLOPs
Baseline	93.93	125.0
AMC (RL搜索)	91.90	62.9
ITPruner	93.43	59.5
MFP	93.56	59.3
FAIR-Pruner	93.64	57.8

消融实验¶

配置	关键观察	说明
U-Score+均匀 vs FAIR	67.8%PR: 80.27% vs 90.71%	ToD分配比均匀高10.4%
Random+ToD vs Random+均匀	35.4%PR: 76.91% vs 10.5%	ToD防止关键层过度剪枝
L1-norm+ToD vs L1-norm+均匀	各设置均提升	ToD可移植到已有指标

ResNet-50 on ImageNet + 推理加速¶

方法	Top-1 (%)	MFLOPs
HRank	74.98	2300
ITPruner	75.28	1943
FAIR-Pruner	75.29	1932

Batch Size	Baseline (26M)	FAIR (15M)	加速比
1	40.7ms	30.4ms	1.34x
4	70.1ms	49.8ms	1.41x
8	118.9ms	86.7ms	1.37x

关键发现¶

ToD 核心价值在逐层分配：相同 U-Score 下 ToD vs 均匀可差 10+% 精度
早期层自动获得低剪枝率、深层高剪枝率，与直觉一致
U-Score 平滑适合排序移除，R-Score 高峰适合保护识别，天然互补
ToD 控制压缩率精确且单调

亮点与洞察¶

"免搜索"是核心优势：改变目标压缩率只需调 alpha（毫秒级），RL/进化搜索每个比例都需重新搜索
两个 score 互补性有坚实经验基础
可扩展性优雅：ToD 分配可直接应用到 L1-norm、HRank 等任意指标

局限性 / 可改进方向¶

ToD 缺乏理论分析，alpha 最优选择依赖经验
仅在中等规模模型验证，未测试 LLM 或 ViT
U-Score 对类别数极大场景计算开销显著
ResNet-50 on ImageNet 结果与 ITPruner 差异不大

评分¶

新颖性: ⭐⭐⭐⭐ ToD 概念新颖，Wasserstein U-Score 有独立价值
实验充分度: ⭐⭐⭐⭐ 多数据集多架构 + 消融 + 可扩展性 + 计算复杂度分析
写作质量: ⭐⭐⭐ 公式符号略繁但逻辑清晰
价值: ⭐⭐⭐⭐ "免搜索非均匀层级分配"有明确实际价值