跳转至

Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning

日期: 2026-03-21
arXiv: 2603.20662
代码: 无
领域: 多模态/VLM
关键词: Spatial Reasoning, Attention Head, Mechanistic Interpretability, Cognitive Function, VLM, Probing, Head Intervention

一句话总结

通过机制可解释性分析发现 VLM 中空间推理头极其稀缺(<9% 超过 0.001 重要性),提出 CogVSR 数据集和探测框架识别认知头,并通过 Spatial Head Activation (SHA) 激活潜在空间头,InternVL3-2B 提升 >10%。

研究背景与动机

  1. 领域现状: VLM 在图像分类、描述等任务上表现优异,但空间推理(判断物体方位、相对位置)仍是持续挑战,即使是简单的"狗是否面对马?"也可能出错。
  2. 现有痛点: 现有改进方法(特殊 prompting、SFT、RL、架构修改)主要聚焦简单空间关系任务,在 token 层面分析注意力,缺乏对内部机制(注意力头)功能角色的深入理解。
  3. 核心矛盾: 人脑通过多区域协作完成空间推理(枕叶→腹侧通路→顶叶→前额叶),但不清楚 VLM 的注意力头是否有类似的功能分工。
  4. 本文要解决什么: 系统性地识别和表征 VLM 中与空间推理相关的注意力头,理解它们的功能角色和特性。
  5. 切入角度: 认知科学启发——将空间推理分解为 8 种认知功能(空间感知、关系推理等),构建 CoT 子问题数据集,用探测框架识别功能头。
  6. 核心 idea 一句话: VLM 中存在稀疏的、通用的、内禀的认知功能头,其中空间头特别稀缺;通过遮挡物体+边界框的 SHA 方法可以激活潜在空间头。

方法详解

整体框架

三阶段流程:(1) CogVSR 数据集构建——将空间推理题分解为带认知功能标签的子问题;(2) 探测框架——提取注意力头激活、训练多标签分类器、梯度×激活归因计算重要性分数;(3) 干预验证——消除/增强功能头观察性能变化。

关键设计

1. CogVSR 数据集

  • 做什么: 将复杂空间推理问题分解为逐步子问题,每个对应特定认知功能
  • 核心思路: 从 VSR/SpatialEval/3DSRbench/Spatial457 采样 1600 题 → GPT-o4-mini CoT 分解 → 专家标注员两轮验证 → 最终 1142 主问题 + 3759 子问题
  • 设计动机: 现有 benchmark 不区分认知子过程,无法定位具体哪种能力缺失
  • 8 种认知功能: 空间感知、关系推理、低级视觉感知、高级视觉感知、信息提取与理解、知识回忆、数学推理、决策

2. 探测框架(Probing Framework)

  • 做什么: 从注意力头提取激活特征,训练分类器识别每个头与哪些认知功能相关
  • 核心思路: 提取 top-k 重要 token(由 Gemini 判定)的头激活 → 层级平均增强 → 多标签 MLP 分类 → gradient×activation 归因计算重要性矩阵 \(\mathbf{I} \in \mathbb{R}^{C \times (L \cdot M)}\)
  • 设计动机: 相比直接看注意力权重,梯度×激活方法更能量化每个头对特定功能的贡献

3. Spatial Head Activation (SHA)

  • 做什么: 通过输入增强激活潜在的空间推理头
  • 核心思路: 用 Gemini 检测物体 → 获取边界框 → 遮挡检测区域(提供物体先验同时减少高级视觉依赖)→ 带 BBox+Mask 的图像作为输入
  • 设计动机: 解耦高级视觉感知(物体识别)与空间感知,迫使模型更多依赖空间相关能力

4. 正向/负向干预

  • 做什么: 消除或增强特定功能头的激活,观察下游任务性能变化
  • 负向干预: 将头输出乘以 \(\epsilon = 0.001\) 有效抑制
  • 正向干预: \(x_l^h(i) \leftarrow x_l^h(i) + \alpha \sigma_l^h \text{dir}_l^h\),沿功能方向偏移激活

损失函数 / 训练策略

  • 探测器:两层 MLP,多标签分类(BCE loss)
  • 头激活提取用 top-3 token(由 Gemini2.5-Flash 选择)
  • 正向干预参数:\(\alpha = 0.1\)

实验关键数据

主实验

SHA 效果 (InternVL3-2B):

输入 Spatial (LLM/Acc) Relational (LLM/Acc)
Original 61.37 / 56.82 63.25 / 58.13
+BBox 65.84 / 58.94 64.95 / 62.39
+Mask 59.70 / 59.80 66.82 / 56.47
+BBox+Mask (SHA) 71.82 / 68.64 70.12 / 67.04

消融实验

认知头 vs 随机头干预 (InternVL3-2B):

干预类型 Spatial Relational Low-Level High-Level Info Decision
Random heads 61.37 63.25 65.48 69.72 71.19 64.03
Cognitive heads 37.92 31.56 13.43 34.27 39.82 21.54

负向干预对下游 benchmark 的影响:

Dataset InternVL3-8B (before→after) Qwen7B (before→after) Llama11B (before→after)
VSR 64.35→24.13 62.47→21.76 65.82→17.94
Spatial457 41.23→14.97 38.71→12.43 32.18→9.86
SpatialEval 47.92→20.08 45.33→18.57 39.61→15.19
3DSRBench 36.58→12.39 34.16→10.84 28.87→8.72

关键发现

  1. 认知头极其稀疏: 所有头中 <9% 的重要性分数超过 0.001(高级视觉感知和决策约 3%,其他功能 <1%)
  2. 空间头最稀缺: 空间感知和关系推理头比其他功能头更少,直接解释了 VLM 空间推理能力不足
  3. 通用性和内禀性: 功能头分布跨架构(Intern/Qwen/Llama)和尺度一致
  4. SHA 显著提升: InternVL3-2B 空间感知提升 >10%(61.37→71.82),Llama-90B 也提升 ~5%
  5. 消除认知头 → 大幅下降: 消除认知头后部分功能准确率降至 <20%,而消除等量随机头几乎无影响
  6. 正向干预有效: 沿功能方向偏移激活可提升下游空间推理 benchmark(如 VSR 从 62.47→63.72)

亮点与洞察

  1. 首次系统性地将认知科学框架引入 VLM 注意力头分析,8 种认知功能的分类恰当
  2. CogVSR 数据集的 CoT 分解 + 多标签标注设计巧妙,可被后续研究复用
  3. "空间头稀缺性"这一发现有很强的解释力——VLM 空间推理差不是因为"没学到",而是分配给空间功能的头太少
  4. SHA 方法简单有效,仅通过输入增强(遮挡+bbox)就能激活潜在空间头,无需重训练
  5. 负向/正向干预实验设计严谨,因果性验证充分

局限性 / 可改进方向

  1. 只分析了注意力头,未探索 FFN/MLP 层对空间推理的贡献
  2. 8 种预定义认知功能可能不够全面,某些功能可能有遗漏
  3. SHA 方法依赖外部模型(Gemini)做物体检测,增加了推理成本
  4. 正向干预的增益相对温和(~1-2%),\(\alpha\) 的调优空间未充分探索
  5. CogVSR 数据规模有限(1142 主问题),对稀有功能组合的覆盖可能不足

相关工作与启发

vs 视觉定位头研究 (Bi et al., CVPR): 之前的工作识别了视觉定位的稀疏头,本文扩展到更复杂的空间推理,发现空间头比视觉定位头更稀缺 vs SFT/RL 增强空间推理: 本文提供了一个互补视角——不是通过训练增加空间能力,而是通过理解内部机制来激活已有但休眠的空间头

评分

维度 分数 (1-5) 说明
新颖性 ⭐⭐⭐⭐ 认知科学 × 机制可解释性的交叉切入点新颖,空间头稀缺性发现有洞察
实验充分度 ⭐⭐⭐⭐⭐ 3 个模型家族、6 种尺度、8 种功能、负向/正向干预、4 个下游 benchmark
写作质量 ⭐⭐⭐⭐ 结构清晰,认知科学类比恰当,图表丰富
价值 ⭐⭐⭐⭐ 对理解和改进 VLM 空间推理有重要启发,SHA 方法实用