跳转至

Identifying and Evaluating Inactive Heads in Pretrained LLMs

会议: ICLR 2026
arXiv: 2504.03889
代码: GitHub
领域: LLM 预训练 / 模型分析
关键词: Inactive Attention Head, Score Function, Attention Sink, Model Intervention, Head Output Norm

一句话总结

系统评估12种评分函数识别LLM中不活跃注意力头,发现基于头输出范数的评分函数(AHON LN)比传统注意力权重指标更能跨模型家族一致地识别不活跃头,14个模型上平均超过12%的头可被置零而保持MMLU精度在1%以内。

研究背景与动机

领域现状:注意力机制是 Transformer LLM 的核心组件,但已有研究发现一些注意力头表现出"注意力汇聚"(attention sink)现象——第一个 token 获得最多注意力权重,尽管其语义重要性有限。Guo et al. (2024a) 据此提出"dormant heads"概念,通过首 token 注意力权重判断头是否活跃。现有痛点:仅基于注意力权重的判断存在盲区:(1)头可能关注多个 value 向量近零的 token 从而输出近零,但不满足"首 token 高权重"模式;(2)头的注意力权重看似"dormant"但实际输出并非近零;(3)不同模型家族(Llama、OLMo、Qwen)的注意力模式差异大,首 token 权重指标不具模型无关性。核心矛盾:不活跃头的定义有多种——注意力集中在无关 token、value 向量近零、头输出近零——但先前工作只关注第一种,导致对不活跃头普遍程度的低估。用 AWFT(首 token 平均权重)仅识别约 4.6% 的不活跃头,漏掉了约 7.6%。本文目标 系统回答"不活跃注意力头有多普遍",并找到最佳的跨模型识别方法。切入角度:不局限于注意力权重,而是全面考查注意力的三个组成部分——注意力权重、value 向量、头输出——设计12种简单评分函数,通过阈值分类+模型干预实验验证哪些头是真正不活跃的。核心 idea:不活跃注意力头应通过头输出范数而非注意力权重模式来识别,因为小输出才真正意味着对模型无贡献。

方法详解

整体框架

(1)定义 12 种评分函数,覆盖注意力权重、value 向量和头输出三个维度(每种有原始和层归一化两个版本);(2)对每种评分函数设置多个阈值,将头分类为"可能不活跃"和"活跃";(3)执行模型干预——在前向传播中动态置零被分类为不活跃的头输出,在 MMLU 上评估准确率变化。在14个预训练模型(Llama-3.1/3.2、OLMo-2、Qwen2.5 三个家族)上进行评估。

关键设计

  1. 12种评分函数:

    • 功能:从三个维度量化注意力头的活跃程度
    • 核心思路:注意力权重类——Avg Weight of First Token (AWFT):首 token 平均权重 \(\frac{1}{N}\sum_i \mathbf{A}_{i,0} > \tau\);Avg Entropy of Query Distributions (AEQD):查询分布平均熵 \(< \tau\)(低熵=注意力集中在少数 token)。Value 向量类——First Token Value Vector Norm (FTVVN):首 token value 范数 \(< \tau\);Avg Value Vector Norm (AVVN):平均 value 范数 \(< \tau\)头输出类——Last Token Head Output Norm (LTHON):末 token 头输出范数 \(< \tau\);Avg Head Output Norm (AHON):平均头输出范数 \(< \tau\)。每种都有层归一化(LN)版本,即除以同层其他头的平均得分:\(\frac{\text{AvgNorm}(\text{head}^i)}{\frac{1}{N_{\text{layer}}}\sum_j \text{AvgNorm}(\text{head}^j)}\)
    • 设计动机:不同函数捕捉不同类型的不活跃。IoU 分析显示最大 IoU 仅 0.58,最大 Precision 仅 0.73——证实不同函数识别的头集合确实不同。层归一化解决了原始分数跨层和跨模型差异大的问题。
  2. 动态模型干预验证:

    • 功能:验证评分函数识别的头是否真正不活跃
    • 核心思路:每次前向传播根据当前输入的评分和阈值构建布尔矩阵 \(\mathbf{B} \in \{0,1\}^{N_{\text{heads}} \times N_{\text{layers}}}\),将 True 位置的头输出置零(在拼接和输出投影之前),然后评估 MMLU 5-shot 准确率。阈值通过 MMLU 输入上的 CDF 分位数(p=0,5,10,...,30)动态选择,控制最多置零 30% 的头。使用随机置零基线做对比。
    • 设计动机:与永久剪枝不同,动态置零按输入内容决定哪些头不活跃,更准确地衡量每次前向传播中"浪费"的计算。如果识别的头真正不活跃,置零后准确率应几乎不变。

损失函数 / 训练策略

本文是分析性工作,不涉及训练。所有评估基于预训练/微调后的模型。评分通过 100 条 FineWeb-Edu 训练样本(随机截断到 10-3000 tokens)或 MMLU 评估样本上的前向传播计算。使用 lm-evaluation-harness 进行标准化评估。

实验关键数据

主实验

14个模型可置零头比例(Table 2,MMLU精度保持在基线1%以内):

模型 AWFT可置零(%) 最佳函数可置零(%) 提升 最佳评分函数
Llama-3.1-8B 8.56 17.11 +8.55 AHON (LN)
Llama-3.1-8B-Inst 1.01 10.97 +9.95 AHON (LN)
OLMo-2-7B 0.42 8.34 +7.93 AHON (LN)
OLMo-2-7B-DPO 2.14 20.60 +18.46 AHON (LN)
OLMo-2-7B-Inst 1.46 19.54 +18.07 AHON (LN)
Qwen2.5-0.5B 7.43 14.42 +6.99 LTHON (LN)
Qwen2.5-3B 5.67 8.78 +3.11 AHON
Qwen2.5-7B 1.25 7.54 +6.29 AHON (LN)
平均 4.61 12.18 +7.56

AHON (LN) 在 8/14 模型排名第1,13/14 模型排名前3。

消融实验

跨数据集稳定性(OLMo-2-7B-Inst,15%头被识别为不活跃):

评分函数 MMLU 阈值 PIQA 阈值 WinoGrande 阈值 稳定性
AWFT 0.077 0.265 0.109 不稳定(3.4倍差异)
AHON (LN) 0.457 0.435 0.473 稳定(<9%差异)

关键发现

  • 看输出非权重:头输出范数才是不活跃性的真正指标——注意力权重看似"dormant"的头输出未必为零,反之注意力看似活跃但输出可能很小
  • >12% 可安全移除:远高于 AWFT 估计的 ~4.6%,先前方法漏掉了 7.6% 的不活跃头
  • 模型无关性:AHON (LN) 跨 Llama、OLMo、Qwen 三个家族一致有效,AWFT 在 OLMo 上几乎完全失效(仅识别 0.42-2.14%)
  • 微调不改变注意力行为:SFT、DPO、RLHF 后的评分分布与基础模型几乎一致(Wasserstein 距离最小),说明注意力头行为在预训练后基本固定
  • 规模效应存在阈值:Qwen2.5 从 0.5B 到 7B 评分分布相似,但 14B 出现显著不同,暗示大规模模型学到了不同的头特化模式

亮点与洞察

  • 简单到极致的方法——12 种阈值函数就能有效识别不活跃头,无需复杂优化或特殊训练
  • 深刻洞察:注意力权重是"误导信号"——看起来 dormant 不等于真正不活跃,应关注头的实际输出贡献
  • 14模型 × 12函数 × 多阈值 × 3基准的全面实验矩阵,结论高度可信
  • 动态置零(按输入决定)比永久剪枝更精确地度量计算冗余
  • 为 KV cache 压缩、推理加速提供了更好的头识别方法——AHON (LN) 可直接用于实际系统

局限与展望

  • 聚焦于理解和识别,未实现实际推理加速(置零只是验证手段)
  • 未分析 MLP 模块——注意力后的 MLP 也可能逐 token 不活跃
  • 缺乏对 GQA(Grouped-Query Attention)的专门讨论——现代模型共享 KV 头可能影响分析
  • 评估主要依赖 MMLU,在生成任务上不活跃头的模式可能不同
  • 置零不等于真正移除参数——内存和计算的实际节省需要额外工程

相关工作与启发

  • vs Dormant Attention (Guo et al., 2024a):仅用注意力权重判断不充分,AHON 系函数识别的不活跃头是 AWFT 的 2.6 倍
  • vs Attention Sinks (Xiao et al., 2024):首 token 聚集是不活跃的一种表现但非全部,本文揭示了更丰富的不活跃模式

评分

  • 新颖性: ⭐⭐⭐⭐ 从输出而非权重角度重新定义"不活跃"是关键创新,12种函数的系统比较前所未有
  • 实验充分度: ⭐⭐⭐⭐⭐ 14模型 × 3家族 × 12函数 × 多阈值,覆盖预训练/微调/规模变化
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表丰富,实验设计严谨
  • 价值: ⭐⭐⭐⭐ 为理解LLM注意力冗余提供了可靠的方法论基础,可直接指导推理优化

相关论文