Identifying and Evaluating Inactive Heads in Pretrained LLMs¶

会议: ICLR 2026 / arXiv: 2504.03889 / 代码: GitHub / 领域: llm_nlp / 关键词: 注意力头, 不活跃头, 注意力汇聚, 评分函数, 模型分析, Transformer

一句话总结¶

系统评估 12 种评分函数来识别 LLM 中不活跃的注意力头，发现平均头输出范数（Avg Head Output Norm）比传统注意力权重指标更能模型无关地识别不活跃头；14 个模型上验证平均超过 12% 的头可被置零而保持 MMLU 精度在 1% 以内。

研究背景与动机¶

注意力机制是 Transformer 的基石，但已有研究发现一些注意力头会出现注意力汇聚（attention sinks）——第一个 token 获得最多注意力，尽管语义重要性有限。

现有工作局限： - Guo et al. (2024a) 仅基于注意力权重判断"dormant heads" - 假设：头主要关注首 token 且首 token value 接近零 -> 头输出接近零 - 忽略了：头可能关注多个 value 近零的 token，或注意力看似活跃但输出很小

关键问题：不活跃注意力头到底有多普遍？不同"不活跃"定义给出不同答案。

方法详解¶

整体框架¶

定义评分函数：12 种函数衡量注意力权重、value 向量和头输出
阈值分类：设阈值分为"可能不活跃"和"活跃"
模型干预验证：置零头输出，在 MMLU 上评估

关键设计¶

12 种评分函数三大类（各 2 基本 + 2 层归一化）：

注意力权重类： 1. Avg Weight of First Token (AWFT)：首 token 平均权重 > tau 2. Avg Entropy of Query Distributions (AEQD)：查询分布平均熵 < tau

Value 向量类： 3. First Token Value Vector Norm (FTVVN)：首 token value 范数 < tau 4. Avg Value Vector Norm (AVVN)：平均 value 范数 < tau

头输出类： 5. Last Token Head Output Norm (LTHON)：末 token 头输出范数 < tau 6. Avg Head Output Norm (AHON)：平均头输出范数 < tau

每种有层归一化版本 (LN)，除以同层其他头平均得分。AHON (LN) 阈值 tau=0.1 表示输出范数低于层平均 10% 的头被认为不活跃。

阈值选择：MMLU 输入上计算 CDF，取 p 分位数（p=0..30），最多置零 30%。

模型干预¶

动态剪枝：每次前向传播根据评分和阈值构建布尔矩阵，True 的头输出被置零。评估 MMLU 5-shot 准确率。

实验关键数据¶

主实验¶

14 模型可置零头比例（表2，MMLU 精度在基线 1% 内）：

模型	AWFT (%)	最佳函数 (%)	最佳
Llama-3.1-8B	8.56	17.11 (+8.55)	AHON (LN)
Llama-3.1-8B-Inst	1.01	10.97 (+9.95)	AHON (LN)
OLMo-2-7B	0.42	8.34 (+7.93)	AHON (LN)
OLMo-2-7B-Inst	1.46	19.54 (+18.07)	AHON (LN)
OLMo-2-7B-DPO	2.14	20.60 (+18.46)	AHON (LN)
Qwen2.5-0.5B	7.43	14.42 (+6.99)	LTHON (LN)
Qwen2.5-7B	1.25	7.54 (+6.29)	AHON (LN)
平均	4.61	12.18 (+7.56)	—

AHON (LN) 在 8/14 模型排名第 1，13/14 前 3。AWFT 仅识别 4.61%，遗漏 7.56%。

消融 / 稳定性¶

差异性（IoU 分析）：最大 IoU=0.58，AWFT 与其他 Precision<0.19——不同函数识别不同头。

跨数据集（OLMo-2-7B-Inst）：AWFT 阈值不稳定（0.077 vs 0.265），AHON (LN) 稳定（0.435-0.473）。

微调影响（Wasserstein 距离）：SFT/DPO/RLHF 对评分分布几乎无影响。微调保留注意力头行为。

模型规模（Qwen2.5，0.5B-14B）：0.5B-7B 相似，14B 出现显著不同行为。

关键发现¶

看输出非权重：头输出范数才是不活跃性真正指标
>12% 可安全移除：远高于 AWFT 估计的 ~5%
模型无关性：AHON (LN) 跨 3 模型家族一致有效
微调影响微乎其微：注意力行为预训练后基本固定

亮点与洞察¶

简洁有力：简单阈值评分即可有效识别不活跃头
深刻洞察：注意力看似"沉睡"不等于输出为零；反之看似活跃输出可能很小
全面实验：14 模型 x 12 函数 x 多阈值 x 3 基准
动态剪枝：按输入动态识别，比永久剪枝更灵活
实践启示：为 KV 缓存压缩、推理加速提供更好的头识别方法

局限性 / 可改进方向¶

仅关注理解非加速：未实现实际推理加速
MLP 未分析：注意力后 MLP 也可能逐 token 不活跃
缺 GQA 分析：现代模型共享 KV 头影响判断
置零 vs 移除：置零不等于移除参数
任务有限：主要 MMLU，生成任务上不活跃头可能不同

评分¶

维度	评分
理论深度	⭐⭐⭐
新颖性	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总体评价	⭐⭐⭐⭐