Counting Circuits: Mechanistic Interpretability of Visual Reasoning in Large Vision-Language Models¶

日期: 2026-03-19
arXiv: 2603.18523
领域: 多模态/VLM
关键词: 计数推理, 机制可解释性, 注意力头功能, 电路发现, 跨模态路由

一句话总结¶

以计数任务为最小化探针，提出 Visual Activation Patching 和 HeadLens 两种新可解释性方法，发现 LVLM 中结构化的"计数电路"（4 类功能注意力头），并基于电路发现设计干预策略：仅用 8000 张合成图微调即可在 OOD 计数上提升 +8.36%、通用视觉推理提升 +1.54%。

研究背景与动机¶

领域现状: LVLM（如 Qwen2.5-VL、LLaVA）在多种视觉推理任务上表现优异，但在计数这一人类觉得极简单的任务上却系统性失败——Qwen2.5-VL-7B 在黑点计数（SynDot）上仅 76% 准确率，LLaVA-1.5-7B 仅 24%。更反直觉的是，模型在视觉更复杂的 SynReal（FLUX 生成的写实图）上反而表现更好，暴露了对训练分布的严重依赖。
现有痛点: 既有工作把计数当孤立任务来攻克——LVLM-count 用 SAM 裁剪图片、CountScope 用 probing 分析内部表征——但这些方法要么只解决表层问题，要么分析深度不够（probing 在简单合成数据上 >99% 准确率是因为数据本身太简单，而非模型真正"理解"了数量）。更关键的是，没有工作在 注意力头级别 揭示计数的电路机制。
核心矛盾: 计数不是简单的模式匹配——它强制模型完成"个体化 → 维持中间表征 → 聚合信息"的完整推理链。现有分析停留在层级别的 probing，无法解释哪些具体组件负责哪个推理步骤。
本文要解决什么？ (a) LVLM 的计数行为是否与人类认知对齐？(b) 内部哪些注意力头构成"计数电路"？各自功能是什么？(c) 能否基于电路发现设计轻量干预，提升计数乃至通用推理？
切入角度: 认知科学表明人类计数存在 subitizing（小数精确）→ estimation（大数噪声）的分界。作者假设 LVLM 也存在类似机制，且计数电路与通用视觉推理共享——因此改善计数 = 改善推理基础。
核心 idea: 用可控合成数据做因果干预（activation patching），在注意力头级别发现计数电路，然后用电路知识指导微调策略。

方法详解¶

整体框架¶

输入合成图像（黑点/彩色多边形/写实物体）→ LVLM 前向传播 → 用 Visual Activation Patching 追踪信息流 → 用 HeadLens 解码每个注意力头的语义 → 发现四类功能头 → 基于电路知识设计三种干预（LoRA SFT + 注意力正则 + 头温度调节）→ 仅用合成数据微调 → 评估 OOD 计数和通用推理。

关键设计¶

1. 认知对齐验证：Yes/No 二值框架¶

做什么: 将计数任务重新表述为 "图里有 K 个 X，对不对？"，K 从 0 遍历到 100
核心发现: LVLM 展现出与人类高度一致的 subitizing 现象——小数量（1-4）有精确的 "Yes Band"（连续肯定区间），大数量的 Yes Band 变宽且振荡
表征层面: t-SNE 可视化显示，数量 0-4 在隐藏状态空间中形成清晰分离的聚类，而更大数量的聚类严重纠缠——这解释了 subitizing 精确但大数估计噪声的机制

2. Visual Activation Patching (VAP)¶

做什么: 将经典的 activation patching 从纯文本扩展到多模态，追踪计数信息的层间流动
怎么做: 构造控制图像对（clean: 3 个点，corrupted: 5 个点，空间布局相同），将 corrupted 的隐藏状态注入 clean 的推理过程，观察预测是否翻转（overwrite rate）
关键发现:
层 1-15：计数信息主要锚定在图像 token 中（overwrite rate 高）
层 15 开始：图像 token 影响骤降，Last Prompt Token（"Assistant:" 标签）影响飙升，层 23 达到峰值
层 15-22 是关键的跨模态路由瓶颈——分布式视觉特征在此被压缩进语言流
Logit Lens 验证：正确数字 token 在层 19-26 开始出现在 top-10，层 27-28 收敛到 rank-1

3. HeadLens：注意力头级语义解码¶

做什么: 将单个注意力头的输出解码为人类可理解的语义 token
核心思路: 利用多头注意力投影的块矩阵加法性质。每个头 \(h_i(x)\) 的输出零填充后经 \(W_O\) 投影，再通过 Tuned Lens 的仿射变换 \(T\) 映射到残差流空间，最后用 unembedding 矩阵解码为 token 概率分布
与 Logit Lens 的区别: Logit Lens 看整层的聚合表征，HeadLens 看单个头的独立贡献——粒度更细
与 AttentionLens 的区别: AttentionLens 需要为每个头单独训练翻译器（计算昂贵且可能掩盖头的真实角色），HeadLens 利用数学上的分解性质直接解码
定义两个指标: Visual Grounding Score (VGS) = top-10 中视觉特征 token 的比例；Counting Token Emergence Rate (CTER) = top-10 中数字 token 的比例

4. 四类功能注意力头的发现¶

通过 head-level VAP + HeadLens + 注意力分布分析，在 Qwen2.5-VL-7B 的 784 个头中识别出 43 个关键头（5.5%）：

类型	层位置	定义条件	功能与发现
Visual Grounding Heads	Layer 1（浅层）	VGS 高	从图像 token 提取颜色、边界、形状等底层视觉特征；Layer 1 的平均 VGS 远高于其他层
Cross-Modal Routing Heads	Layers 18-24（中层）	图像注意力高 + 重要性高 + CTER 高	直接从图像 token 提取信息并转化为数字语义。如 L19H23：注意力集中在物体图像区域，HeadLens top-1 解码出"三"（中文）
Counting Aggregation Heads	Layers 26+（深层）	图像注意力低 + 重要性高 + CTER 高	不直接看图像，而是聚合残差流中已有的计数信息。如 L26H26：几乎不关注图像，top-10 解码与最终预测高度对齐
Awareness Heads	深层	特化功能	L26H8："存在探测器"——有物体就输出 "1"；L23H19："难度感知"——GT=1 时混入 "no/unnecessary"，GT≥2 时输出数字，高计数时混入"困难/不可能"

干预策略¶

基于电路发现，设计三种互补干预：

Object-Focused Attention Regularizer (\(\mathcal{L}_{focus}\)): 利用合成图像的物体中心坐标生成高斯软先验，监督视觉注意力更加"物体中心"。应用于 Visual Grounding 层（Layer 2）和 Cross-Modal Routing 层（Layers 18-22）
Adaptive Head Temperature Tuning (\(\beta_h\)): 对关键头的注意力做温度缩放 \(\beta_h = \alpha \times \gamma_h\)（\(\alpha=1.2\)，\(\gamma_h\) 为头重要性分数），降低注意力熵，锐化关键头的信号——无需训练
LoRA SFT: 在所有层的注意力投影上用 LoRA (r=64) 微调，损失仅计算在计数 token 上

联合目标：\(\mathcal{L} = \mathcal{L}_{SFT} + \lambda \mathcal{L}_{focus}\)，训练数据仅 8000 张合成图（SynDot + SynPoly 各半）。

实验关键数据¶

主实验：OOD 计数提升¶

模型	方法	SynReal Acc	PixMo-Count Acc	MMMU	RealWorldQA	MathVista	通用Δ
Qwen2.5-VL-7B	Baseline	73.48	58.79	54.89	61.96	57.30	—
Qwen2.5-VL-7B	Ours	84.83	64.15	56.33	64.14	58.30	+1.54
Qwen3-VL-8B	Baseline	88.79	58.75	58.33	70.05	66.30	—
Qwen3-VL-8B	Ours	91.21	66.98	60.74	71.83	67.90	+1.93
LLaVA-1.5-7B	Baseline	54.27	31.88	44.44	56.21	23.90	—
LLaVA-1.5-7B	Ours	60.11	32.64	44.56	56.48	26.30	+0.93

消融实验¶

SFT	\(\mathcal{L}_{focus}\)	\(\beta_h\)	SynReal	PixMo	MMMU	RWQA	MathVista
—	—	—	73.48	58.79	54.89	61.96	57.30
✓	—	—	79.78	61.67	56.00	63.14	58.10
✓	✓	—	82.34	63.32	56.11	64.05	58.20
✓	✓	✓	84.83	64.15	56.33	64.14	58.30

关键发现¶

三个组件互补：SFT 贡献最大（SynReal +6.3），注意力正则再加 +2.5，温度调节再加 +2.5
计数电路与通用推理高度共享：Jaccard 分析显示计数与 VQA/数学推理的 top-20 重要头重叠 >33%，而颜色识别的重叠极低——解释了为什么微调计数能提升通用推理，但微调颜色识别不行
Qwen3-VL 基线更强但提升更大（+1.93 vs +1.54）：说明电路增强不只是补偿预训练不足，而是强化了基础推理机制

亮点与洞察¶

"计数是视觉智能的基石"的实证验证: 通过 Jaccard 重叠分析给出了计数电路→通用推理的因果证据。微调颜色识别（纯感知任务）不带来通用推理提升，但微调计数（推理任务）可以——说明计数的信息整合机制是视觉推理的共享基础设施。
HeadLens 的方法论价值: 相比 AttentionLens（每个头训练一个翻译器）和 Logit Lens（只看层级聚合），HeadLens 利用数学分解直接解码单个头的语义——更高效、更忠实、更细粒度。可直接迁移到任何基于 transformer 的模型。
8000 张黑点图→通用推理提升: 训练数据极度简单（PIL 生成的黑点和彩色多边形），但因为精准命中了计数电路，效果传导到 MMMU/MathVista/RealWorldQA——这是"理解机制后精准干预"的教科书案例。
Awareness Heads 的发现: L23H19 不仅计数，还编码"难度感知"——GT=1 时混入"无需计数"的语义，高计数时混入"困难"——这暗示 LVLM 内部存在元认知式的自我评估机制。

局限性 / 可改进方向¶

跨架构泛化: 电路发现主要在 Qwen2.5-VL-7B 上完成，虽然干预对 Qwen3-VL 和 LLaVA 也有效，但功能头的分布可能因架构差异而不同——需要更系统的跨架构电路对比
提升幅度有限: 通用推理提升 +1.54%~+1.93%，说明计数电路只是推理的"基石之一"——其他基元能力（空间推理、属性比较）的电路增强可能带来更大增益
合成数据的天花板: 仅用合成图训练，SynReal 上 Qwen2.5-VL 从 73→85 仍有 15% 差距——实际物体的遮挡、密度、纹理等复杂性未被合成数据覆盖
未与 probing 方法做系统对比: CountScope 等方法用 probing 分析计数，本文用因果干预——两种范式的互补性和各自盲区未被讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ VAP + HeadLens 双工具 + 四类头发现 + 电路驱动干预的完整闭环
实验充分度: ⭐⭐⭐⭐⭐ 3 个模型 × 6 个基准 + 消融 + Jaccard 电路分析 + 认知对齐验证
写作质量: ⭐⭐⭐⭐⭐ 认知科学×机制可解释性的优美交叉叙事
价值: ⭐⭐⭐⭐⭐ HeadLens 可迁移、电路驱动干预范式对 LVLM 可解释性有方法论贡献