On the Nature of Attention Sink that Shapes Decoding Strategy in MLLMs¶

日期: 2026-03-15
arXiv: 2603.14337
代码: 无
领域: 多模态VLM
关键词: attention sink, MLLM, inference-time, video QA, OutRo

一句话总结¶

系统分析 MLLM 中 attention sink 现象的本质，发现 sink token 的 value 表示编码了结构化全局信息（而非无用），据此提出 OutRo——通过将非 sink 位置的 head output 旋转向 sink value 方向 + 放松 sink token 的因果 mask，在 7 个视频 QA benchmark 上一致提升性能，仅 1.1× 解码开销。

研究背景与动机¶

领域现状: Attention sink 现象已在 LLM 和 VLM 中广泛观察——模型将大量注意力分配给语义上无关的 token（如 BOS、标点、背景 patch）。主流观点将 sink head 视为冗余/不活跃头，可以剪枝提效。
现有痛点: 现有工作把 sink 当作可移除的噪声，但实验发现剪枝 sink head 有时提升有时降低性能——不能简单视为冗余。sink token 的表示特性（key/value）一直被忽视。
核心矛盾: 如果 attention sink 真的无用，为什么移除后模型反而会退步？sink token 是否在隐式地承担某种功能？
切入角度: 不关注 head 层面的剪枝，转而分析 sink token 自身的表示。通过几何分析发现 sink value 虽然 norm 小，但方向一致，编码了全局信息。
核心 idea: Sink token 是全局信息的载体。利用这一发现，将 non-sink token 的 head output 旋转向 sink value 方向（对齐全局信息），并放松 sink token 的因果约束（增强信息聚合）。

方法详解¶

分析发现（三个核心问题）¶

Q1: 如何识别 sink token？ 对比 VLM 标准 (Φ_VLM) 和 LLM 标准 (Φ_LLM)：Φ_VLM 在深层把大多数 token 都标为 sink（过度识别），而 Φ_LLM 只识别极少数稳定的 sink token。结论：Φ_LLM 更适用于通用 MLLM。

Q2: Sink head = 冗余？ 逐 head 消融实验显示，高 sink 注意力的 head 可能提升也可能降低性能——sink attention 不能预测 head 重要性。

Q3: Sink 编码全局信息？ Sink key/value norm 小但结构化（Fig.4），key 与 query 方向高度对齐（高 cosine similarity），移除 sink key 主导维度后 sink 注意力模式崩塌且性能下降（Zero-K 实验）。旋转 head output 向 sink value 方向 → 性能提升；放松 sink 因果 mask → 性能提升。

OutRo 方法¶

Head Output Rotation:
- 做什么：将 non-sink 位置的 attention head output 向 sink value 方向旋转
- 核心思路：投影 head output 到 sink value 向量方向，加上投影分量后 rescale
- 设计动机：让所有 token 表示与 sink 编码的全局信息方向对齐
Causal Mask Relaxation for Sink Tokens:
- 做什么：从 sink 行为开始显著的层开始，允许 sink token attend 到后续 token
- 核心思路：选择性放松 causal mask，让 sink 能聚合更多全局上下文
- 设计动机：sink token 已经自然地编码全局信息，给它更多信息来源只会更好

关键优势¶

不需要 attention map 访问：在 head output 级别操作，兼容 FlashAttention
不需要额外 forward pass：不像 contrastive decoding 需要多次前向
仅 1.1× 解码开销

实验关键数据¶

主实验（视频 QA）¶

在 6 个 MLLM（包括 Qwen2.5-VL、VideoLLaMA3 等）× 7 个 benchmark 上一致提升。

干预	AVHBench (A→V)	AVHBench (V→A)
Baseline	80.11	75.41
+ Rotation	80.81	75.72

消融实验¶

实验	结论
Zero-K (去 sink key 主导维度)	性能大幅下降（Qwen2.5-VL: 41.26→14.75）
Head ablation	Sink score 不能预测 head 重要性
Rotation only	稳定提升
Injection (mask relaxation)	额外小幅提升

关键发现¶

Φ_VLM 标准在视频 MLLM 中严重过度识别 sink（深层几乎所有 token 都被标为 sink）
Zero-K 最致命——只去掉 top-1 维度就能摧毁 sink 注意力模式，且性能暴跌
Sink value 虽然 norm 小，但方向一致且有功能意义——是全局信息的压缩载体

亮点与洞察¶

重新定义 attention sink: 从"可剪枝的冗余"到"全局信息载体"，概念转变有深度
旋转操作的优雅性: 不修改模型权重，不需要训练，不需要 attention map，仅 head output 级别操作
跨模态一般性: 分析从视频 MLLM 到 audio-visual LLM 都验证，不限于图像 VLM

局限性 / 可改进方向¶

旋转的强度如何自适应控制？当前似乎是固定比例
只在推理时干预，能否把 sink 的功能理解应用到训练？
实验主要在视频 QA 上，对生成任务（如 image captioning）是否同样有效未验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 对 attention sink 的重新理解有深度和原创性
实验充分度: ⭐⭐⭐⭐⭐ 6 个模型 × 7 个 benchmark + 系统的分析实验
写作质量: ⭐⭐⭐⭐⭐ Q1-Q3 的分析结构清晰优雅
价值: ⭐⭐⭐⭐ 推理时免训练提升 MLLM，实用性好