ICLR 2026 模型压缩注意力机制 temporal analysis RoPE query self-similarity KV cache compression 剪枝

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis¶

会议: ICLR 2026
arXiv: 2601.21709
代码: GitHub
领域: 模型压缩 / 注意力机制分析 / LLM 推理加速
关键词: attention patterns, temporal analysis, RoPE, query self-similarity, KV cache compression, LLM pruning

一句话总结¶

本文提出 TAPPA 框架，从时间连续性视角统一解释了 LLM 中多种注意力模式（attention sink、对角线、周期性等）的形成机制，并通过 query 自相似性（q-similarity）指标指导 KV cache 压缩和模型剪枝任务。

研究背景与动机¶

LLM 中的注意力头呈现多种结构化模式： - Attention sinks：首个 token 获得异常高注意力 - 对角线模式：关注相邻 token - 检索头（Retrieval heads）：全局扫描上下文 - 周期性模式：周期性重复关注

先前研究通常只分析单个模式，缺乏统一解释。关键问题：在相同的注意力公式下，是什么因素决定了不同头采用不同的注意力模式？

方法详解¶

整体框架：TAPPA¶

TAPPA（Temporal Attention Pattern Predictability Analysis）将注意力模式分为两大类： - 可预测模式：具有时间连续性，注意力指标随解码步骤平滑演化 - 不可预测模式：不规则跳跃，缺乏时间一致性（如 retrieval heads）

核心区分因素：query 自相似性（q-similarity）

关键设计 1：可预测 vs 不可预测模式¶

Proposition 4.1：若连续 query 差异 \(\|q_{t+1} - q_t\|\) 较大且与旋转后的 key 不正交，则注意力 logit 差异必然较大：

\[\|a_{t+1} - a_t\|_\infty \geq c_1 \|q_{t+1} - q_t\| - c_2\]

即低 q-similarity 导致随机模式，高 q-similarity 是可预测模式的必要条件。

关键设计 2：重访问模式（Re-access / Attention Sink）¶

定理 5.1（注意力垂直稳定性）：当 query 高度自相似且存在主导低频 RoPE 通道时，注意力 logit 在时间维度上垂直稳定：

\[|a_{t+1,i} - a_{t,i}| \leq \text{小量}\]

当 \(q\) 和 \(k_i\) 之间角度 \(\phi_{t,i}^{(m)}\) 很小时，余弦项接近 1，解释了 attention sink 现象。

关键设计 3：顺序模式（Sequential / Diagonal）¶

定理 5.2：当 query 和 key 都具有高自相似性（\(\|q_{t+1} - q_t\| \leq \varepsilon\), \(\|k_{i+1} - k_i\| \leq \varepsilon\)）时：

\[|a_{t+1,i+1} - a_{t,i}| \leq C\varepsilon\]

RoPE 的相对位置编码在同步位移下保持 query-key 交互，产生对角线模式。

关键设计 4：周期性顺序模式¶

定理 5.3：当存在主导 RoPE 通道 \(m^\star\) 时，对角线间距为：

\[T = \frac{2\pi}{\theta_{m^\star}} = 2\pi c^{2m^\star/d}\]

通过实验验证：重定位主导通道到低索引（高频）位置会使周期性对角线出现，调整 RoPE base \(c\) 也可控制间距。

关键设计 5：季节性模式（Seasonal）¶

定理 5.4：当 query 和 key 近似周期 \(L\) 且与主导 RoPE 频率共振时：

\[|a_{t+L,i} - a_{t,i}| \leq C_1(\varepsilon_q + \varepsilon_k) + C_2\delta\]

产生周期 \(L\) 的季节性注意力模式。

下游应用¶

利用 q-similarity 作为简单指标指导： - KV cache 压缩：高 q-similarity 的头可安全压缩 - LLM 剪枝：识别可修剪的冗余头

实验¶

KV Cache 压缩（LongBench）¶

方法	Budget=512	平均分
StreamingLLM	—	41.75
H2O	—	44.39
SnapKV	—	46.92
CAKE	—	47.19
TAPPA	—	47.55
Full cache	—	49.06

TAPPA 基于 q-similarity 的简单指标一致优于所有基线方法。

LLM 剪枝¶

在 Llama-3.1-8B 和 Qwen-2.5-7B 上： - q-similarity 指导的剪枝优于无指导的均匀剪枝 - 高 q-similarity 头被修剪后对性能影响更小

理论验证实验¶

主导通道重定位：将 Qwen2.5 中索引 124 的主导通道移至索引 2/3/5，成功产生了理论预测的周期性对角线
RoPE base 调整：\(c = 1,000,000 \to 100,000\) 使对角线间距缩短，与 \(T = 2\pi / \theta_{m^\star}\) 的理论预测一致
q-similarity 分布：跨层、头、模型和数据集分析验证了高/低连续性头的普遍存在

关键发现¶

q-similarity 是区分可预测/不可预测注意力模式的关键因素
Re-access 模式需要高 q-similarity + 低频 RoPE 主导通道
Sequential 模式需要高 q-similarity + 高 k-similarity
周期性对角线间距由主导 RoPE 通道频率决定
q-similarity 作为下游任务的指标简单而有效

亮点¶

首次从时间连续性视角统一解释多种注意力模式
四个定理提供了严格的数学分析
q-similarity 指标极其简单但一致有效
通过控制实验（重定位通道/调整 RoPE base）精确验证理论

局限性¶

理论分析假设 query/key 自相似性可度量，但在实际中这些量随上下文变化
对不可预测模式（如 retrieval heads）的分析相对较少
季节性模式需要 RoPE 共振条件，实际中的适用范围可能有限
下游任务改进虽然一致但幅度较小（~0.5-1 个点）

评分¶

新颖性：⭐⭐⭐⭐⭐ — 统一理论框架是重要贡献
理论深度：⭐⭐⭐⭐⭐ — 四个定理严格推导
实验充分性：⭐⭐⭐⭐ — 理论验证精彩，下游任务略简单
实用价值：⭐⭐⭐⭐ — q-similarity 简单实用
写作质量：⭐⭐⭐⭐⭐ — 清晰优雅，可视化出色