Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning¶
日期: 2026-03-21
arXiv: 2603.20662
代码: 无
领域: 多模态/VLM
关键词: Spatial Reasoning, Attention Head, Mechanistic Interpretability, Cognitive Function, VLM, Probing, Head Intervention
一句话总结¶
通过机制可解释性分析发现 VLM 中空间推理头极其稀缺(<9% 超过 0.001 重要性),提出 CogVSR 数据集和探测框架识别认知头,并通过 Spatial Head Activation (SHA) 激活潜在空间头,InternVL3-2B 提升 >10%。
研究背景与动机¶
- 领域现状: VLM 在图像分类、描述等任务上表现优异,但空间推理(判断物体方位、相对位置)仍是持续挑战,即使是简单的"狗是否面对马?"也可能出错。
- 现有痛点: 现有改进方法(特殊 prompting、SFT、RL、架构修改)主要聚焦简单空间关系任务,在 token 层面分析注意力,缺乏对内部机制(注意力头)功能角色的深入理解。
- 核心矛盾: 人脑通过多区域协作完成空间推理(枕叶→腹侧通路→顶叶→前额叶),但不清楚 VLM 的注意力头是否有类似的功能分工。
- 本文要解决什么: 系统性地识别和表征 VLM 中与空间推理相关的注意力头,理解它们的功能角色和特性。
- 切入角度: 认知科学启发——将空间推理分解为 8 种认知功能(空间感知、关系推理等),构建 CoT 子问题数据集,用探测框架识别功能头。
- 核心 idea 一句话: VLM 中存在稀疏的、通用的、内禀的认知功能头,其中空间头特别稀缺;通过遮挡物体+边界框的 SHA 方法可以激活潜在空间头。
方法详解¶
整体框架¶
三阶段流程:(1) CogVSR 数据集构建——将空间推理题分解为带认知功能标签的子问题;(2) 探测框架——提取注意力头激活、训练多标签分类器、梯度×激活归因计算重要性分数;(3) 干预验证——消除/增强功能头观察性能变化。
关键设计¶
1. CogVSR 数据集
- 做什么: 将复杂空间推理问题分解为逐步子问题,每个对应特定认知功能
- 核心思路: 从 VSR/SpatialEval/3DSRbench/Spatial457 采样 1600 题 → GPT-o4-mini CoT 分解 → 专家标注员两轮验证 → 最终 1142 主问题 + 3759 子问题
- 设计动机: 现有 benchmark 不区分认知子过程,无法定位具体哪种能力缺失
- 8 种认知功能: 空间感知、关系推理、低级视觉感知、高级视觉感知、信息提取与理解、知识回忆、数学推理、决策
2. 探测框架(Probing Framework)
- 做什么: 从注意力头提取激活特征,训练分类器识别每个头与哪些认知功能相关
- 核心思路: 提取 top-k 重要 token(由 Gemini 判定)的头激活 → 层级平均增强 → 多标签 MLP 分类 → gradient×activation 归因计算重要性矩阵 \(\mathbf{I} \in \mathbb{R}^{C \times (L \cdot M)}\)
- 设计动机: 相比直接看注意力权重,梯度×激活方法更能量化每个头对特定功能的贡献
3. Spatial Head Activation (SHA)
- 做什么: 通过输入增强激活潜在的空间推理头
- 核心思路: 用 Gemini 检测物体 → 获取边界框 → 遮挡检测区域(提供物体先验同时减少高级视觉依赖)→ 带 BBox+Mask 的图像作为输入
- 设计动机: 解耦高级视觉感知(物体识别)与空间感知,迫使模型更多依赖空间相关能力
4. 正向/负向干预
- 做什么: 消除或增强特定功能头的激活,观察下游任务性能变化
- 负向干预: 将头输出乘以 \(\epsilon = 0.001\) 有效抑制
- 正向干预: \(x_l^h(i) \leftarrow x_l^h(i) + \alpha \sigma_l^h \text{dir}_l^h\),沿功能方向偏移激活
损失函数 / 训练策略¶
- 探测器:两层 MLP,多标签分类(BCE loss)
- 头激活提取用 top-3 token(由 Gemini2.5-Flash 选择)
- 正向干预参数:\(\alpha = 0.1\)
实验关键数据¶
主实验¶
SHA 效果 (InternVL3-2B):
| 输入 | Spatial (LLM/Acc) | Relational (LLM/Acc) |
|---|---|---|
| Original | 61.37 / 56.82 | 63.25 / 58.13 |
| +BBox | 65.84 / 58.94 | 64.95 / 62.39 |
| +Mask | 59.70 / 59.80 | 66.82 / 56.47 |
| +BBox+Mask (SHA) | 71.82 / 68.64 | 70.12 / 67.04 |
消融实验¶
认知头 vs 随机头干预 (InternVL3-2B):
| 干预类型 | Spatial | Relational | Low-Level | High-Level | Info | Decision |
|---|---|---|---|---|---|---|
| Random heads | 61.37 | 63.25 | 65.48 | 69.72 | 71.19 | 64.03 |
| Cognitive heads | 37.92 | 31.56 | 13.43 | 34.27 | 39.82 | 21.54 |
负向干预对下游 benchmark 的影响:
| Dataset | InternVL3-8B (before→after) | Qwen7B (before→after) | Llama11B (before→after) |
|---|---|---|---|
| VSR | 64.35→24.13 | 62.47→21.76 | 65.82→17.94 |
| Spatial457 | 41.23→14.97 | 38.71→12.43 | 32.18→9.86 |
| SpatialEval | 47.92→20.08 | 45.33→18.57 | 39.61→15.19 |
| 3DSRBench | 36.58→12.39 | 34.16→10.84 | 28.87→8.72 |
关键发现¶
- 认知头极其稀疏: 所有头中 <9% 的重要性分数超过 0.001(高级视觉感知和决策约 3%,其他功能 <1%)
- 空间头最稀缺: 空间感知和关系推理头比其他功能头更少,直接解释了 VLM 空间推理能力不足
- 通用性和内禀性: 功能头分布跨架构(Intern/Qwen/Llama)和尺度一致
- SHA 显著提升: InternVL3-2B 空间感知提升 >10%(61.37→71.82),Llama-90B 也提升 ~5%
- 消除认知头 → 大幅下降: 消除认知头后部分功能准确率降至 <20%,而消除等量随机头几乎无影响
- 正向干预有效: 沿功能方向偏移激活可提升下游空间推理 benchmark(如 VSR 从 62.47→63.72)
亮点与洞察¶
- 首次系统性地将认知科学框架引入 VLM 注意力头分析,8 种认知功能的分类恰当
- CogVSR 数据集的 CoT 分解 + 多标签标注设计巧妙,可被后续研究复用
- "空间头稀缺性"这一发现有很强的解释力——VLM 空间推理差不是因为"没学到",而是分配给空间功能的头太少
- SHA 方法简单有效,仅通过输入增强(遮挡+bbox)就能激活潜在空间头,无需重训练
- 负向/正向干预实验设计严谨,因果性验证充分
局限性 / 可改进方向¶
- 只分析了注意力头,未探索 FFN/MLP 层对空间推理的贡献
- 8 种预定义认知功能可能不够全面,某些功能可能有遗漏
- SHA 方法依赖外部模型(Gemini)做物体检测,增加了推理成本
- 正向干预的增益相对温和(~1-2%),\(\alpha\) 的调优空间未充分探索
- CogVSR 数据规模有限(1142 主问题),对稀有功能组合的覆盖可能不足
相关工作与启发¶
vs 视觉定位头研究 (Bi et al., CVPR): 之前的工作识别了视觉定位的稀疏头,本文扩展到更复杂的空间推理,发现空间头比视觉定位头更稀缺 vs SFT/RL 增强空间推理: 本文提供了一个互补视角——不是通过训练增加空间能力,而是通过理解内部机制来激活已有但休眠的空间头
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 认知科学 × 机制可解释性的交叉切入点新颖,空间头稀缺性发现有洞察 |
| 实验充分度 | ⭐⭐⭐⭐⭐ | 3 个模型家族、6 种尺度、8 种功能、负向/正向干预、4 个下游 benchmark |
| 写作质量 | ⭐⭐⭐⭐ | 结构清晰,认知科学类比恰当,图表丰富 |
| 价值 | ⭐⭐⭐⭐ | 对理解和改进 VLM 空间推理有重要启发,SHA 方法实用 |