Restoring Pruned Large Language Models via Lost Component Compensation¶

会议: NeurIPS 2025
arXiv: 2510.21834
代码: GitHub
领域: 模型压缩 / LLM剪枝恢复
关键词: LLM剪枝, 性能恢复, 注意力激活, 成分补偿, PEFT

一句话总结¶

RestoreLCC 提出了一种面向剪枝 LLM 的定向恢复策略：通过对比探测定位关键注意力头，利用 SVD 分解提取剪枝丢失的激活成分，将其作为可优化的偏置向量注入回剪枝模型，在不影响稀疏性和推理速度的前提下显著恢复性能。

LLM 剪枝（如 Wanda、SparseGPT、SlimGPT）是降低模型尺寸和加速推理的关键技术，但必然带来性能下降。现有恢复方法主要依赖参数高效微调（PEFT），如 LoRA，来恢复剪枝模型的性能。

核心矛盾：LoRA 等 PEFT 方法原本为稠密模型设计，用于适配下游任务，在应用于剪枝模型时忽视了剪枝模型的独特属性——需要补偿被剪掉的信息。这导致参数搜索效率低下和次优恢复效果。

关键洞察：剪枝导致的信息损失反映在注意力头的激活中。通过对比分析稠密模型和剪枝模型的注意力激活差异，发现： 1. 将丢失的成分直接注入回剪枝头可以显著恢复 logit 差异和最终准确率 2. 不同注意力头的重要性和恢复行为差异很大 3. 判别性信息可能存在于次要成分而非主成分中

切入角度：不做通用的无目标 fine-tuning，而是显式地补偿剪枝过程中丢失的关键信息方向。

RestoreLCC 包含两个核心模块：(1) 对比探测（Contrastive Probing），用于定位对恢复最关键的注意力头；(2) 丢失成分补偿（Lost Component Compensation, LCC），提取并优化丢失信息的方向成分，注入回剪枝模型。

对比探测（Contrastive Probing）:
- 对比样本构建：对于每个样本 \((q, r^+)\)，用句子编码器（如 MiniLM-L6）找到语义最相似的负样本 \(r^-\)，构成三元组 \((q, r^+, r^-)\)
- 激活编辑：假设恢复后的问题激活 \(z_c^q = z_p^q + c^q\)，其中 \(c^q\) 为丢失的主成分
- 注意力头探测：将问题转化为自然语言推理任务——如果注意力头重要且对应成分有用，恢复后的激活应该与正确序列激活"蕴含"，与错误序列激活"矛盾"
- 训练线性探测分类器评估每个头的判别能力，按分类准确率排序注意力头的重要性
丢失成分补偿（LCC）:
- 对剪枝丢失的激活矩阵 \(\Delta\mathbf{Z}^{(l,h)} = \mathbf{Z}_d^{(l,h)} - \mathbf{Z}_p^{(l,h)}\) 做 SVD 分解
- 固定所有方向向量 \(v_i\)（正交单位向量），为每个方向学习一个标量大小 \(\beta_i\)
- 丢失成分建模为：\(c_{\text{learned}} = \sum_{i=1}^{d_h} \beta_i v_i + b\)
- \(b\) 为可训练偏置向量，用于覆盖预定义方向之外的信息
- 恢复后的激活：\(\tilde{z}_p = z_p + c_{\text{learned}}\)
即插即用的偏置注入:
- 最终学到的 \(c_{\text{learned}}\) 是一个常数偏置向量，捕获所有样本共同丢失的关键信息
- 直接吸收为多头注意力模块的常数偏置，推理时几乎不增加计算
- 参数开销极小：每层最多增加 \(1/(2d_l)\) 参数，对隐藏维度 > 1000 的模型影响 < 0.05%

剪枝方式	方法	PPL↓	平均准确率↑	提升
非结构化 50%	Wanda (基线)	7.26	54.09%	—
非结构化 50%	LoRA	7.09	56.27%	+2.18
非结构化 50%	LoFiT	7.35	56.82%	+2.73
非结构化 50%	RestoreLCC	6.93	58.83%	+4.74
半结构化 2:4	SparseGPT (基线)	11.04	48.99%	—
半结构化 2:4	DoRA	9.16	52.35%	+3.36
半结构化 2:4	RestoreLCC	8.99	55.00%	+6.01
结构化 20%	SlimGPT (基线)	7.46	57.54%	—
结构化 20%	DoRA	7.54	58.51%	+0.97
结构化 20%	RestoreLCC	7.53	59.76%	+2.22