Head Pursuit: Probing Attention Specialization in Multimodal Transformers¶

会议: NeurIPS 2025
arXiv: 2510.21518
代码: https://github.com/lorenzobasile/HeadPursuit
领域: 多模态VLM / 可解释性
关键词: 注意力头特化, Matching Pursuit, 可解释性, 模型编辑, 稀疏分解

一句话总结¶

用信号处理中的Simultaneous Orthogonal Matching Pursuit (SOMP)算法分解注意力头在unembedding矩阵上的稀疏表示，揭示注意力头的语义特化现象（如政治/国籍/月份/数字等），仅编辑1%的头即可可靠地抑制或增强特定概念——在语言和视觉-语言模型上均验证有效。

背景与动机¶

已有注意力头分析工具（如Logit Lens）通常只对单个样本做启发式分析，难以跨样本泛化。作者将Logit Lens重新解释为"Matching Pursuit的单步单样本特例"，然后用完整的SOMP算法做多样本、多方向的稀疏分解，系统性地揭示每个注意力头的语义角色。

核心问题¶

注意力头是否在语义层面存在特化？如果存在，能否利用这种特化来可控地编辑模型行为？

方法详解¶

核心方法：SOMP稀疏分解¶

将每个注意力头的输出H ∈ R^{n×d}在unembedding矩阵D ∈ R^{v×d}上做稀疏分解：H ≈ W*D。SOMP迭代选择与残差最大相关的dictionary atom（即unembedding中的token向量），得到每个头的"top-k语义方向"。

关键发现¶

Mistral-7B的头特化：L18.H27特化于政治（COVID/Soviet/Obama/Biden/Clinton），L24.H20特化于国籍（British/American/European），L25.H14特化于月份，L30.H28特化于数字
概念特定头选择：用受限字典（仅包含目标概念的token）做SOMP，以方差解释比排序头的相关性
编辑1%头即生效：翻转sign或缩放top-k头的输出，可显著抑制/增强目标概念

应用验证¶

QA任务：翻转"国籍"相关头→国籍类问题准确率暴降，其他类别不受影响
毒性缓解：翻转"毒性"相关头→生成内容毒性显著降低
VLM图像分类：翻转"颜色"相关头→颜色识别任务降级
VLM图像描述：增强颜色头(α>1)→生成描述中颜色词增多；抑制(α=-1)→颜色消失

实验关键数据¶

Mistral-7B TriviaQA：翻转"国籍"头后国籍问题准确率降~15%，随机头仅降~2%
LLaVA图像分类：翻转颜色头后颜色识别准确率下降明显
毒性生成：头编辑有效降低毒性指标
所有场景中随机控制组（同数量不同头）效果微弱——证明特化是真实的

亮点¶

信号处理×可解释性: 将Matching Pursuit引入Transformer分析是新颖的跨学科bridging
Logit Lens的泛化: 从"单步单样本"泛化到"多步多样本"稀疏分解
编辑仅需1%头: 极其高效的模型行为控制——不需要训练
跨模态验证: LLM和VLM上都展示了头特化现象

局限性 / 可改进方向¶

需要预定义target概念的token列表
SOMP的计算开销随模型规模增长
头特化模式在不同模型间可能不一致
未测试在更大规模模型（70B+）上的效果

与相关工作的对比¶

vs VHD/VHR: VHD用视觉有/无两条件的欧氏距离分类"视觉敏感头"，Head Pursuit用稀疏分解分析"语义特化头"——方法论互补
vs Logit Lens/Tuned Lens: Head Pursuit是Logit Lens的多样本多方向泛化版本
vs MANU(模态感知遗忘): MANU基于激活统计剪枝神经元，Head Pursuit可以提供更精准的头级别指导

启发与关联¶

SOMP选择的特化头可以指导VLM的模型压缩——保留重要概念头、剪枝冗余头
与VHR结合：VHR增强视觉头+Head Pursuit控制语义头=多维度精细控制
可用于Agent安全——识别和抑制与有害行为相关的特化头

评分¶

新颖性: ⭐⭐⭐⭐⭐ Matching Pursuit在Transformer可解释性中的创新应用
实验充分度: ⭐⭐⭐⭐ 语言+视觉语言，QA+毒性+分类+描述多任务
写作质量: ⭐⭐⭐⭐⭐ Table 1的头特化示例极其直观
价值: ⭐⭐⭐⭐⭐ 为模型可控编辑提供了数学原理性的工具