Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning¶

日期: 2026-03-21
arXiv: 2603.20662
代码: 无
领域: 多模态/VLM
关键词: Spatial Reasoning, Attention Head, Mechanistic Interpretability, Cognitive Function, VLM, Probing, Head Intervention

一句话总结¶

通过机制可解释性分析发现 VLM 中空间推理头极其稀缺（<9% 超过 0.001 重要性），提出 CogVSR 数据集和探测框架识别认知头，并通过 Spatial Head Activation (SHA) 激活潜在空间头，InternVL3-2B 提升 >10%。

研究背景与动机¶

领域现状: VLM 在图像分类、描述等任务上表现优异，但空间推理（判断物体方位、相对位置）仍是持续挑战，即使是简单的"狗是否面对马？"也可能出错。
现有痛点: 现有改进方法（特殊 prompting、SFT、RL、架构修改）主要聚焦简单空间关系任务，在 token 层面分析注意力，缺乏对内部机制（注意力头）功能角色的深入理解。
核心矛盾: 人脑通过多区域协作完成空间推理（枕叶→腹侧通路→顶叶→前额叶），但不清楚 VLM 的注意力头是否有类似的功能分工。
本文要解决什么: 系统性地识别和表征 VLM 中与空间推理相关的注意力头，理解它们的功能角色和特性。
切入角度: 认知科学启发——将空间推理分解为 8 种认知功能（空间感知、关系推理等），构建 CoT 子问题数据集，用探测框架识别功能头。
核心 idea 一句话: VLM 中存在稀疏的、通用的、内禀的认知功能头，其中空间头特别稀缺；通过遮挡物体+边界框的 SHA 方法可以激活潜在空间头。

方法详解¶

整体框架¶

三阶段流程：(1) CogVSR 数据集构建——将空间推理题分解为带认知功能标签的子问题；(2) 探测框架——提取注意力头激活、训练多标签分类器、梯度×激活归因计算重要性分数；(3) 干预验证——消除/增强功能头观察性能变化。

关键设计¶

1. CogVSR 数据集

做什么: 将复杂空间推理问题分解为逐步子问题，每个对应特定认知功能
核心思路: 从 VSR/SpatialEval/3DSRbench/Spatial457 采样 1600 题 → GPT-o4-mini CoT 分解 → 专家标注员两轮验证 → 最终 1142 主问题 + 3759 子问题
设计动机: 现有 benchmark 不区分认知子过程，无法定位具体哪种能力缺失
8 种认知功能: 空间感知、关系推理、低级视觉感知、高级视觉感知、信息提取与理解、知识回忆、数学推理、决策

2. 探测框架（Probing Framework）

做什么: 从注意力头提取激活特征，训练分类器识别每个头与哪些认知功能相关
核心思路: 提取 top-k 重要 token（由 Gemini 判定）的头激活 → 层级平均增强 → 多标签 MLP 分类 → gradient×activation 归因计算重要性矩阵 \(\mathbf{I} \in \mathbb{R}^{C \times (L \cdot M)}\)
设计动机: 相比直接看注意力权重，梯度×激活方法更能量化每个头对特定功能的贡献

3. Spatial Head Activation (SHA)

做什么: 通过输入增强激活潜在的空间推理头
核心思路: 用 Gemini 检测物体 → 获取边界框 → 遮挡检测区域（提供物体先验同时减少高级视觉依赖）→ 带 BBox+Mask 的图像作为输入
设计动机: 解耦高级视觉感知（物体识别）与空间感知，迫使模型更多依赖空间相关能力

4. 正向/负向干预

做什么: 消除或增强特定功能头的激活，观察下游任务性能变化
负向干预: 将头输出乘以 \(\epsilon = 0.001\) 有效抑制
正向干预: \(x_l^h(i) \leftarrow x_l^h(i) + \alpha \sigma_l^h \text{dir}_l^h\)，沿功能方向偏移激活

损失函数 / 训练策略¶

探测器：两层 MLP，多标签分类（BCE loss）
头激活提取用 top-3 token（由 Gemini2.5-Flash 选择）
正向干预参数：\(\alpha = 0.1\)

实验关键数据¶

主实验¶

SHA 效果 (InternVL3-2B):

输入	Spatial (LLM/Acc)	Relational (LLM/Acc)
Original	61.37 / 56.82	63.25 / 58.13
+BBox	65.84 / 58.94	64.95 / 62.39
+Mask	59.70 / 59.80	66.82 / 56.47
+BBox+Mask (SHA)	71.82 / 68.64	70.12 / 67.04

消融实验¶

认知头 vs 随机头干预 (InternVL3-2B):

干预类型	Spatial	Relational	Low-Level	High-Level	Info	Decision
Random heads	61.37	63.25	65.48	69.72	71.19	64.03
Cognitive heads	37.92	31.56	13.43	34.27	39.82	21.54

负向干预对下游 benchmark 的影响：

Dataset	InternVL3-8B (before→after)	Qwen7B (before→after)	Llama11B (before→after)
VSR	64.35→24.13	62.47→21.76	65.82→17.94
Spatial457	41.23→14.97	38.71→12.43	32.18→9.86
SpatialEval	47.92→20.08	45.33→18.57	39.61→15.19
3DSRBench	36.58→12.39	34.16→10.84	28.87→8.72

关键发现¶

认知头极其稀疏: 所有头中 <9% 的重要性分数超过 0.001（高级视觉感知和决策约 3%，其他功能 <1%）
空间头最稀缺: 空间感知和关系推理头比其他功能头更少，直接解释了 VLM 空间推理能力不足
通用性和内禀性: 功能头分布跨架构（Intern/Qwen/Llama）和尺度一致
SHA 显著提升: InternVL3-2B 空间感知提升 >10%（61.37→71.82），Llama-90B 也提升 ~5%
消除认知头 → 大幅下降: 消除认知头后部分功能准确率降至 <20%，而消除等量随机头几乎无影响
正向干预有效: 沿功能方向偏移激活可提升下游空间推理 benchmark（如 VSR 从 62.47→63.72）

亮点与洞察¶

首次系统性地将认知科学框架引入 VLM 注意力头分析，8 种认知功能的分类恰当
CogVSR 数据集的 CoT 分解 + 多标签标注设计巧妙，可被后续研究复用
"空间头稀缺性"这一发现有很强的解释力——VLM 空间推理差不是因为"没学到"，而是分配给空间功能的头太少
SHA 方法简单有效，仅通过输入增强（遮挡+bbox）就能激活潜在空间头，无需重训练
负向/正向干预实验设计严谨，因果性验证充分

局限性 / 可改进方向¶

只分析了注意力头，未探索 FFN/MLP 层对空间推理的贡献
8 种预定义认知功能可能不够全面，某些功能可能有遗漏
SHA 方法依赖外部模型（Gemini）做物体检测，增加了推理成本
正向干预的增益相对温和（~1-2%），\(\alpha\) 的调优空间未充分探索
CogVSR 数据规模有限（1142 主问题），对稀有功能组合的覆盖可能不足

评分¶

维度	分数 (1-5)	说明
新颖性	⭐⭐⭐⭐	认知科学 × 机制可解释性的交叉切入点新颖，空间头稀缺性发现有洞察
实验充分度	⭐⭐⭐⭐⭐	3 个模型家族、6 种尺度、8 种功能、负向/正向干预、4 个下游 benchmark
写作质量	⭐⭐⭐⭐	结构清晰，认知科学类比恰当，图表丰富
价值	⭐⭐⭐⭐	对理解和改进 VLM 空间推理有重要启发，SHA 方法实用