跳转至

AIMCoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning

会议: ICLR 2026
arXiv: 2509.25699
代码: 有(匿名链接)
领域: 多模态VLM
关键词: multimodal CoT, information gain, active visual probing, attention map, interleaved reasoning

一句话总结

提出 AIMCoT,将多模态 CoT 的视觉信息选择从"被动关注高注意力区域"转变为"主动寻找最高信息增益区域",通过三个模块(CAG 上下文增强注意力图、AVP 主动视觉探测、DAT 动态注意力转移触发)协同工作,在 LLaVA-W 上比 ICoT 提升 18.25%(0-shot),是一个免训练的即插即用框架。

研究背景与动机

  1. 领域现状:Interleaved-modal CoT(如 ICoT)通过在推理链中交替插入文本和视觉 patch 来增强 VLM 推理,已成为多模态推理的前沿方向。
  2. 现有痛点:现有方法依赖"被动"策略——选择注意力分数最高的 Top-K 区域,在换行符处插入。实验揭示三个问题:(1) 高注意力区域经常是冗余的或引入噪声;(2) 注意力图会遗漏关键视觉细节(尤其在文本-视觉粒度不匹配时);(3) 在换行符处插入视觉信息缺乏理论依据。
  3. 核心矛盾:注意力图反映的是 token 相关性而非"对回答问题有用的信息",但现有方法把两者混为一谈。被动 Top-K 选择没有明确目标,本质上是无方向的。
  4. 本文要解决什么? (1) 如何获得可靠的注意力图?(2) 如何主动选择对回答最有帮助的视觉区域?(3) 何时是插入视觉信息的最佳时机?
  5. 切入角度:从信息觅食理论(Information Foraging Theory)出发,将区域选择重新定义为信息增益最大化问题。
  6. 核心idea一句话:用信息增益驱动的主动探测替代注意力分数驱动的被动选择,让 VLM "主动寻找最需要看到的区域"。

方法详解

整体框架

AIMCoT 是免训练的即插即用框架,包含三个协同模块:CAG 先生成上下文增强的注意力图 → AVP 从候选区域中贪心选择信息增益最大的 K 个区域 → DAT 监控注意力转移来决定何时插入视觉信息到 CoT 中。

关键设计

  1. Context-enhanced Attention-map Generation (CAG):
  2. 做什么:生成上下文感知的图像描述来缓解文本-视觉粒度不匹配
  3. 核心思路:先让 VLM 根据问题对图像生成一段解释性描述 \(\mathcal{D}_{CAG}\),然后将描述拼接到问题后面,用增强后的上下文重新计算注意力图 \(A'\),使其更可靠地指向任务相关区域
  4. 设计动机:原始注意力图在文本-视觉粒度差异大时不可靠(实验显示 mask 掉 Top-10 注意力区域仅降 3.93%),增强文本上下文可以弥补这一差距

  5. Active Visual Probing (AVP):

  6. 做什么:基于信息增益主动选择最有价值的视觉区域
  7. 核心思路:构建多样化候选集 \(C = C_{attn} \cup C_{exp}\)(Top-N 注意力区域 + M 个随机采样网格区域),定义信息增益 \(IG(\{R_i\}) = U_B - U_{C,i}\)(基础不确定性减去引入区域后的条件不确定性,都用词表概率分布的熵衡量),用贪心算法迭代选择 K 个信息增益最大的区域
  8. 设计动机:高注意力区域之间可能信息重叠,信息增益可以自然地去除冗余——如果一个区域的信息已被之前选的区域覆盖,它的边际增益会降低。实验显示信息增益选择能精准定位关键细节

  9. Dynamic Attention-shifting Trigger (DAT):

  10. 做什么:智能判断何时在 CoT 中插入视觉信息
  11. 核心思路:在每个 token 生成步监控模型对视觉上下文的注意力总分 \(A_{visual}(t)\)(最后 3 层平均),计算注意力变化量 \(\Delta A_{visual}(t)\),当变化量超过阈值 \(\delta\) 时触发 AVP 插入视觉区域
  12. 设计动机:实证发现高分输出与"注意力从文本转向视觉时插入视觉信息"强相关;低分输出则缺乏这种模式

损失函数 / 训练策略

无需训练(training-free)。所有模块都是推理时即插即用的。

实验关键数据

主实验

模型 方法 M3CoT (0-shot) ScienceQA (0-shot) LLaVA-W (0-shot)
Chameleon-7B No-CoT 29.1 47.7 13.1
ICoT 29.8 51.0 25.2
AIMCoT 31.4 53.1 29.8
提升 vs ICoT +5.5% +4.1% +18.3%
Qwen2-VL-7B No-CoT 43.6 56.3 32.7
ICoT 44.1 56.8 34.2
AIMCoT 44.7 57.4 36.3
提升 vs ICoT +1.4% +1.1% +6.2%

消融实验

配置 效果 说明
Mask Top-10 注意力区域 仅降 3.93% 证明高注意力区域并非都关键
仅 CAG 有改善 注意力图更可靠
CAG + AVP 显著提升 主动选择比被动 Top-K 好得多
CAG + AVP + DAT (完整) 最佳 三模块协同效果优于任何子集
推理时间 vs ICoT ≤1.36x 额外开销可接受

关键发现

  • 在开放式 LLaVA-W 上优势最大(+18.3%),因为开放式场景更需要主动寻找信息
  • 0-shot 比 1-shot 优势更明显,说明 AIMCoT 更能激发模型的基础推理能力
  • 探索性候选集 \(C_{exp}\)(随机采样区域)提供了大量注意力图未覆盖的有用区域
  • 信息增益函数实证表现出近似次模性,支持贪心算法的有效性

亮点与洞察

  • 从被动到主动的范式转变:将视觉区域选择从"模型在看哪里"转变为"什么信息对模型最有帮助",是多模态推理的一个重要概念升级
  • 信息增益作为选择度量:用预测熵的变化来量化视觉区域的有用性,理论基础扎实,且自然解决了冗余问题
  • 动态触发机制有独立价值:监控注意力模态转移来决定插入时机的想法可以推广到其他需要多模态信息融合的场景

局限性 / 可改进方向

  • 候选区域的信息增益计算需要多次前向传播(|C| + 1 次),计算开销是主要瓶颈
  • 基于注意力监控的 DAT 可能在不同 VLM 架构上表现不一致
  • 仅在 7B 模型上验证,更大模型上的表现未知
  • 随机采样探索集的质量取决于图像内容分布,在特定场景可能不够高效

相关工作与启发

  • vs ICoT: 同样做 interleaved CoT,但 AIMCoT 将被动 Top-K 升级为主动信息增益选择,解决了 ICoT 的高注意力区域不可靠问题
  • vs DDCoT/CCoT: 这些方法只生成文本推理链,AIMCoT 直接在链中插入视觉证据,提供更强的视觉锚定
  • 信息觅食理论在 NLP/多模态中的应用值得进一步探索

评分

  • 新颖性: ⭐⭐⭐⭐ 信息增益驱动的主动选择是有意义的创新
  • 实验充分度: ⭐⭐⭐⭐ 三个 benchmark、两个 backbone、详细消融
  • 写作质量: ⭐⭐⭐⭐ 动机分析细致,理论基础扎实
  • 价值: ⭐⭐⭐⭐ 免训练框架,实用性好,但在更强模型上提升有限