Identifying and Evaluating Inactive Heads in Pretrained LLMs¶
会议: ICLR 2026
arXiv: 2504.03889
代码: GitHub
领域: LLM 预训练 / 模型分析
关键词: Inactive Attention Head, Score Function, Attention Sink, Model Intervention, Head Output Norm
一句话总结¶
系统评估12种评分函数识别LLM中不活跃注意力头,发现基于头输出范数的评分函数(AHON LN)比传统注意力权重指标更能跨模型家族一致地识别不活跃头,14个模型上平均超过12%的头可被置零而保持MMLU精度在1%以内。
研究背景与动机¶
领域现状:注意力机制是 Transformer LLM 的核心组件,但已有研究发现一些注意力头表现出"注意力汇聚"(attention sink)现象——第一个 token 获得最多注意力权重,尽管其语义重要性有限。Guo et al. (2024a) 据此提出"dormant heads"概念,通过首 token 注意力权重判断头是否活跃。现有痛点:仅基于注意力权重的判断存在盲区:(1)头可能关注多个 value 向量近零的 token 从而输出近零,但不满足"首 token 高权重"模式;(2)头的注意力权重看似"dormant"但实际输出并非近零;(3)不同模型家族(Llama、OLMo、Qwen)的注意力模式差异大,首 token 权重指标不具模型无关性。核心矛盾:不活跃头的定义有多种——注意力集中在无关 token、value 向量近零、头输出近零——但先前工作只关注第一种,导致对不活跃头普遍程度的低估。用 AWFT(首 token 平均权重)仅识别约 4.6% 的不活跃头,漏掉了约 7.6%。本文目标 系统回答"不活跃注意力头有多普遍",并找到最佳的跨模型识别方法。切入角度:不局限于注意力权重,而是全面考查注意力的三个组成部分——注意力权重、value 向量、头输出——设计12种简单评分函数,通过阈值分类+模型干预实验验证哪些头是真正不活跃的。核心 idea:不活跃注意力头应通过头输出范数而非注意力权重模式来识别,因为小输出才真正意味着对模型无贡献。
方法详解¶
整体框架¶
(1)定义 12 种评分函数,覆盖注意力权重、value 向量和头输出三个维度(每种有原始和层归一化两个版本);(2)对每种评分函数设置多个阈值,将头分类为"可能不活跃"和"活跃";(3)执行模型干预——在前向传播中动态置零被分类为不活跃的头输出,在 MMLU 上评估准确率变化。在14个预训练模型(Llama-3.1/3.2、OLMo-2、Qwen2.5 三个家族)上进行评估。
关键设计¶
-
12种评分函数:
- 功能:从三个维度量化注意力头的活跃程度
- 核心思路:注意力权重类——Avg Weight of First Token (AWFT):首 token 平均权重 \(\frac{1}{N}\sum_i \mathbf{A}_{i,0} > \tau\);Avg Entropy of Query Distributions (AEQD):查询分布平均熵 \(< \tau\)(低熵=注意力集中在少数 token)。Value 向量类——First Token Value Vector Norm (FTVVN):首 token value 范数 \(< \tau\);Avg Value Vector Norm (AVVN):平均 value 范数 \(< \tau\)。头输出类——Last Token Head Output Norm (LTHON):末 token 头输出范数 \(< \tau\);Avg Head Output Norm (AHON):平均头输出范数 \(< \tau\)。每种都有层归一化(LN)版本,即除以同层其他头的平均得分:\(\frac{\text{AvgNorm}(\text{head}^i)}{\frac{1}{N_{\text{layer}}}\sum_j \text{AvgNorm}(\text{head}^j)}\)。
- 设计动机:不同函数捕捉不同类型的不活跃。IoU 分析显示最大 IoU 仅 0.58,最大 Precision 仅 0.73——证实不同函数识别的头集合确实不同。层归一化解决了原始分数跨层和跨模型差异大的问题。
-
动态模型干预验证:
- 功能:验证评分函数识别的头是否真正不活跃
- 核心思路:每次前向传播根据当前输入的评分和阈值构建布尔矩阵 \(\mathbf{B} \in \{0,1\}^{N_{\text{heads}} \times N_{\text{layers}}}\),将 True 位置的头输出置零(在拼接和输出投影之前),然后评估 MMLU 5-shot 准确率。阈值通过 MMLU 输入上的 CDF 分位数(p=0,5,10,...,30)动态选择,控制最多置零 30% 的头。使用随机置零基线做对比。
- 设计动机:与永久剪枝不同,动态置零按输入内容决定哪些头不活跃,更准确地衡量每次前向传播中"浪费"的计算。如果识别的头真正不活跃,置零后准确率应几乎不变。
损失函数 / 训练策略¶
本文是分析性工作,不涉及训练。所有评估基于预训练/微调后的模型。评分通过 100 条 FineWeb-Edu 训练样本(随机截断到 10-3000 tokens)或 MMLU 评估样本上的前向传播计算。使用 lm-evaluation-harness 进行标准化评估。
实验关键数据¶
主实验¶
14个模型可置零头比例(Table 2,MMLU精度保持在基线1%以内):
| 模型 | AWFT可置零(%) | 最佳函数可置零(%) | 提升 | 最佳评分函数 |
|---|---|---|---|---|
| Llama-3.1-8B | 8.56 | 17.11 | +8.55 | AHON (LN) |
| Llama-3.1-8B-Inst | 1.01 | 10.97 | +9.95 | AHON (LN) |
| OLMo-2-7B | 0.42 | 8.34 | +7.93 | AHON (LN) |
| OLMo-2-7B-DPO | 2.14 | 20.60 | +18.46 | AHON (LN) |
| OLMo-2-7B-Inst | 1.46 | 19.54 | +18.07 | AHON (LN) |
| Qwen2.5-0.5B | 7.43 | 14.42 | +6.99 | LTHON (LN) |
| Qwen2.5-3B | 5.67 | 8.78 | +3.11 | AHON |
| Qwen2.5-7B | 1.25 | 7.54 | +6.29 | AHON (LN) |
| 平均 | 4.61 | 12.18 | +7.56 | — |
AHON (LN) 在 8/14 模型排名第1,13/14 模型排名前3。
消融实验¶
跨数据集稳定性(OLMo-2-7B-Inst,15%头被识别为不活跃):
| 评分函数 | MMLU 阈值 | PIQA 阈值 | WinoGrande 阈值 | 稳定性 |
|---|---|---|---|---|
| AWFT | 0.077 | 0.265 | 0.109 | 不稳定(3.4倍差异) |
| AHON (LN) | 0.457 | 0.435 | 0.473 | 稳定(<9%差异) |
关键发现¶
- 看输出非权重:头输出范数才是不活跃性的真正指标——注意力权重看似"dormant"的头输出未必为零,反之注意力看似活跃但输出可能很小
- >12% 可安全移除:远高于 AWFT 估计的 ~4.6%,先前方法漏掉了 7.6% 的不活跃头
- 模型无关性:AHON (LN) 跨 Llama、OLMo、Qwen 三个家族一致有效,AWFT 在 OLMo 上几乎完全失效(仅识别 0.42-2.14%)
- 微调不改变注意力行为:SFT、DPO、RLHF 后的评分分布与基础模型几乎一致(Wasserstein 距离最小),说明注意力头行为在预训练后基本固定
- 规模效应存在阈值:Qwen2.5 从 0.5B 到 7B 评分分布相似,但 14B 出现显著不同,暗示大规模模型学到了不同的头特化模式
亮点与洞察¶
- 简单到极致的方法——12 种阈值函数就能有效识别不活跃头,无需复杂优化或特殊训练
- 深刻洞察:注意力权重是"误导信号"——看起来 dormant 不等于真正不活跃,应关注头的实际输出贡献
- 14模型 × 12函数 × 多阈值 × 3基准的全面实验矩阵,结论高度可信
- 动态置零(按输入决定)比永久剪枝更精确地度量计算冗余
- 为 KV cache 压缩、推理加速提供了更好的头识别方法——AHON (LN) 可直接用于实际系统
局限与展望¶
- 聚焦于理解和识别,未实现实际推理加速(置零只是验证手段)
- 未分析 MLP 模块——注意力后的 MLP 也可能逐 token 不活跃
- 缺乏对 GQA(Grouped-Query Attention)的专门讨论——现代模型共享 KV 头可能影响分析
- 评估主要依赖 MMLU,在生成任务上不活跃头的模式可能不同
- 置零不等于真正移除参数——内存和计算的实际节省需要额外工程
相关工作与启发¶
- vs Dormant Attention (Guo et al., 2024a):仅用注意力权重判断不充分,AHON 系函数识别的不活跃头是 AWFT 的 2.6 倍
- vs Attention Sinks (Xiao et al., 2024):首 token 聚集是不活跃的一种表现但非全部,本文揭示了更丰富的不活跃模式
评分¶
- 新颖性: ⭐⭐⭐⭐ 从输出而非权重角度重新定义"不活跃"是关键创新,12种函数的系统比较前所未有
- 实验充分度: ⭐⭐⭐⭐⭐ 14模型 × 3家族 × 12函数 × 多阈值,覆盖预训练/微调/规模变化
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表丰富,实验设计严谨
- 价值: ⭐⭐⭐⭐ 为理解LLM注意力冗余提供了可靠的方法论基础,可直接指导推理优化
相关论文¶
- [ECCV 2024] ScanTalk: 3D Talking Heads from Unregistered Scans
- [ICML 2025] Evaluating Morphological Alignment of Tokenizers in 70 Languages
- [CVPR 2026] Evidential Transformation Network: Turning Pretrained Models into Evidential Models for Post-hoc Uncertainty Estimation
- [AAAI 2026] Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach
- [NeurIPS 2025] Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?