跳转至

Let's Think with Images Efficiently! An Interleaved-Modal Chain-of-Thought Reasoning Framework with Dynamic and Precise Visual Thoughts (DaP-ICoT)

日期: 2026-03-23
arXiv: 2603.21754
代码: DaP-ICoT
领域: 多模态VLM / LLM推理
关键词: Interleaved-modal Chain-of-Thought, 动态视觉思维, SAM2分割, 置信度感知, token效率

一句话总结

针对交错模态思维链(ICoT)中静态视觉插入冗余和碎片化视觉 token 不连贯两大问题,提出 DaP-ICoT 框架:通过置信度感知的动态视觉思维集成(DVTI)和基于 SAM2 分割的精确视觉思维引导(PVTG),在 SOTA 推理精度下减少 72.6% 的 token 消耗。

研究背景与动机

  1. 领域现状:多模态大模型(MLLM)的推理能力日益强大,交错模态思维链(ICoT)允许模型在推理过程中同时产生文本和视觉输出,利用模态互补性提升推理效果。
  2. 现有痛点:(1)Static Visual Thought Positioning — 现有 ICoT 在每个推理步骤后固定插入视觉信息,导致大量冗余计算;(2)Broken Visual Thought Representation — 选择的不连续 image token 缺乏语义连贯性,损害理解能力。
  3. 核心矛盾:视觉信息对推理有帮助,但不加选择地在每一步都插入会引入噪声和冗余;而选择的碎片化 token 又无法传达完整语义。
  4. 本文要解决什么:如何在 ICoT 推理中实现按需、高效、语义连贯的视觉信息集成。
  5. 切入角度:从模型的推理置信度出发判断何时需要视觉辅助,用物体级分割而非 patch 级 token 保证视觉语义完整性。
  6. 核心 idea 一句话:只在模型"不确定"时插入"完整的物体图像"作为视觉思维,兼顾效率与精度。

方法详解

整体框架

DaP-ICoT 由两个核心模块组成:(1)DVTI 在每个推理步骤后计算模型置信度,仅在置信度低于阈值时触发视觉思维插入;(2)PVTG 使用 SAM2 对原始图像进行物体级分割,通过跨模态相关性选择与当前推理文本最相关的物体子图像插入。两个模块协同工作,最小化不必要的视觉信息同时更好地捕捉关键视觉线索。

关键设计

Dynamic Visual Thought Integration (DVTI)

  • 做什么:基于置信度自适应决定是否在下一步推理中引入视觉思维
  • 核心思路:在每个解码位置 \(i\) 计算 logit margin \(\delta_i = \ell_{w^{(1)}} - \ell_{w^{(2)}}\)(top-1 与 top-2 logit 之差),对整个 rationale \(T_t\) 取平均得到步骤置信度 \(C_t = \frac{1}{|T_t|} \sum_i \delta_i\)。当 \(C_t < \tau\) 时插入视觉输入,否则仅文本推理
  • 设计动机:logit margin 直接反映模型对 token 选择的确定性,低 margin 说明模型犹豫,此时视觉辅助最有价值;避免在模型已确信时浪费计算资源

Precise Visual Thought Guidance (PVTG)

  • 做什么:在需要视觉输入时,提供语义连贯的物体级视觉表示替代碎片化 token
  • 核心思路:先用 SAM2 对原图分割得到物体候选集 \(\mathcal{O} = \{O_1, O_2, ..., O_N\}\),再计算每个物体子图像与当前文本 rationale 的跨模态注意力相似度 \(s_i = f_{\text{attn}}(T_t, O_i)\),选择得分最高的物体
  • 设计动机:物体级子图像保留完整语义信息,相比随机 patch token 更连贯;跨模态相关性确保选择与推理上下文最相关的物体

损失函数 / 训练策略

DaP-ICoT 是一个 training-free 的推理框架,不需要额外训练。关键超参数:

  • 置信度阈值 \(\tau\):在 M3CoT 验证集上搜索 \((0, 1]\),最优值为 0.2
  • 使用各 MLLM 默认的 top-p 和 temperature 设置
  • 在 Chameleon-7B、LLaVA-V1.5-(7B/13B)、Qwen2-VL-(2B/7B) 五个模型上验证通用性

实验关键数据

主实验

模型 方法 M3CoT 0-shot ScienceQA 0-shot MME 0-shot
Chameleon-7B ICoT 26.1 44.5 794.8
Chameleon-7B DaP-ICoT 41.0 57.1 832.3
Qwen2-VL-7B ICoT 38.0 54.2 1587.3
Qwen2-VL-7B DaP-ICoT 57.2 75.9 2012.2
LLaVA-V1.5-13B ICoT 37.0 54.6 1405.4
LLaVA-V1.5-13B DaP-ICoT 39.4 60.3 1556.3

消融实验

配置 (Qwen2-VL-7B) M3CoT 0-shot ScienceQA 0-shot
Full DaP-ICoT 57.2 75.9
w/o DVTI 42.8 (↓14.4) 55.1 (↓20.8)
w/o PVTG 43.4 (↓13.8) 55.5 (↓20.4)

关键发现

  • 推理精度大幅提升:Chameleon-7B 上 M3CoT 0-shot 从 ICoT 的 26.1% 提升到 41.0%(+14.9),所有模型所有基准均为 SOTA
  • token 消耗减少 72.6%:DaP-ICoT 平均仅用 314 tokens vs ICoT 的 1146 tokens(Qwen2-VL-7B, M3CoT)
  • 图像插入频率降低:每样本平均仅插入 1.2 张图像 vs ICoT 的 2.6 张,图像 token 仅 26 vs ICoT 大幅更多
  • 置信度提升率更高:80.7% 的样本在插入视觉后置信度提升(vs ICoT 的 46.4%),说明 DaP-ICoT 选择性插入更有效
  • \(\tau=0.2\) 最优:过低 → 过多视觉插入浪费资源;过高 → 视觉辅助不足推理能力下降
  • DVTI 和 PVTG 缺一不可,各自移除导致约 14-21% 的性能下降

亮点与洞察

  • 极简而有效的置信度机制:logit margin 是现成可得的信号,无需额外模块或训练,即插即用
  • training-free:不改模型权重,纯推理阶段的方法,可直接应用于任意 MLLM
  • SAM2 + 跨模态选择的组合:利用通用分割模型获得物体级语义完整表示,比 patch-level token 选择更合理
  • 效率-精度双赢:同时提升精度和降低计算开销,这在 CoT 方法中很罕见

局限性 / 可改进方向

  • SAM2 分割本身有计算开销,文中未讨论整体推理延迟(虽然 token 减少,但分割步骤可能抵消部分收益)
  • 阈值 \(\tau\) 需要在验证集上搜索,不同数据集可能需要不同阈值
  • 仅选择单个最相关物体,多物体交互场景可能丢失信息
  • 未在更大规模模型(如 70B+)或闭源 API 模型上验证
  • PVTG 依赖 SAM2 分割质量,对低质量或抽象图像(如图表/示意图)可能效果有限

相关工作与启发

  • vs ICoT (CVPR 2025):ICoT 在每步固定插入 attention-driven 选择的 token,DaP-ICoT 仅在低置信时插入完整物体图像,精度更高 token 更少
  • vs CCoT (CVPR 2024):CCoT 先生成 scene graph 再用于推理,token 消耗 1294 远高于 DaP-ICoT 的 314
  • vs SCAFFOLD (ACL 2025):SCAFFOLD 用 dot matrix 覆盖在图像上作为视觉锚点,是人工设计的空间标注;DaP-ICoT 的物体选择更语义化自适应

评分

维度 分数 (1-10) 说明
新颖性 8 置信度驱动的动态视觉插入 + SAM2 物体级选择,思路新颖
实验充分度 9 5 个模型 × 3 个基准 × 0/1-shot + 详细消融与效率分析
写作质量 7 公式清晰但部分分析可以更深入
价值 8 training-free 方法,实用性强,对 ICoT 推理范式有重要改进
领域: 多模态VLM / 推理
关键词: interleaved-modal CoT, visual thought, dynamic insertion, SAM2, reasoning efficiency

一句话总结

提出 DaP-ICoT,通过置信度感知的动态视觉思维插入(低置信度时才插入图像)和 SAM2-based 精确物体级视觉选择(替代碎片化 patch token),在 M3CoT/ScienceQA/MME 等多基准上达 SOTA 同时减少 72.6% 的 token 消耗。

研究背景与动机

  1. 领域现状: Interleaved-modal CoT(ICoT)让 MLLM 在推理过程中交替输出文本和视觉思维,比纯文本 CoT 更强。已有方法如 Sketchpad、Image-of-Thought、SCAFFOLD 等。

  2. 现有痛点: (i) 静态视觉定位——每步推理后都机械地插入视觉信息,不区分推理步是否真正需要视觉辅助,冗余浪费;(ii) 碎片化视觉表示——选择不连续的 image patch token 作为视觉思维,语义断裂不连贯。

  3. 核心矛盾: 不是每步推理都需要视觉帮助(模型高置信度时纯文本已够),但现有方法一视同仁每步都插;选出的 token 是零散 patch 而非完整语义单元,"看了但看不懂"。

  4. 切入角度: 利用模型自身的 logit margin 衡量推理置信度来动态决策"何时"插入视觉思维;用 SAM2 做物体级分割来精确决定"插入什么"——完整物体子图而非碎片 token。

  5. 核心 idea: 置信度驱动的动态插入 + SAM2 物体级精确选择 = 高效且精确的 ICoT 推理。

方法详解

整体框架

ICoT 推理中,每步生成文本推理后:(1) DVTI 模块计算该步置信度,低于阈值τ则触发视觉插入;(2) PVTG 模块从 SAM2 分割的物体池中选择与当前推理最相关的物体子图;(3) 选中的物体图 interleave 到推理序列中,继续下一步。

关键设计

  1. 动态视觉思维插入(DVTI):

    • 做什么:根据模型推理置信度动态决定是否需要视觉辅助
    • 核心思路:在每个解码位置 i 计算 logit margin \(\delta_i = \ell_{i,w^{(1)}} - \ell_{i,w^{(2)}}\)(top1 与 top2 logit 之差),聚合为该步平均置信度 \(C_t = \frac{1}{|T_t|}\sum_i \delta_i\)
    • 决策规则:\(C_t < \tau\) 时插入视觉思维,否则跳过
    • 设计动机:高置信度 = 模型已经确定,不需要额外视觉信息;低置信度 = 需要视觉辅助来消歧
    • 效果:大幅减少不必要的图像插入,降低 72.6% token 消耗
  2. 精确视觉思维引导(PVTG):

    • 做什么:当 DVTI 触发插入时,精确选择最相关的完整物体子图
    • 核心思路:先用 SAM2 对原图做物体级分割 → 得到候选物体子图集合 \(\mathcal{O} = \{O_1, ..., O_N\}\) → 计算当前文本推理 \(T_t\) 与每个 \(O_i\) 的跨模态相似度 \(s_i = f_{attn}(T_t, O_i)\) → 选最相关的 \(\hat{O} = \arg\max s_i\)
    • 与 patch token 的区别:物体子图保留完整语义边界,不是任意裁剪的碎片
    • 插入方式:\(\mathcal{R}_{t \to v} = \mathcal{R}_t \oplus \hat{O}\),interleave 到推理序列中

训练/推理

完全 training-free,利用已有 MLLM 的推理能力 + SAM2 的分割能力,无需额外训练。

实验关键数据

多基准对比(Chameleon-7B)

方法 M3CoT (0-shot) ScienceQA (1-shot) MME (1-shot)
Direct 22.5 43.4 942.9
ICoT (CVPR 2025) 26.1 45.3 928.9
DaP-ICoT 41.0 62.9 1013.0

LLaVA-V1.5-7B 对比

方法 M3CoT ScienceQA MME
ICoT 34.6 46.7 1421.6
DaP-ICoT 36.3 51.1 1450+

效率分析

指标 ICoT DaP-ICoT 改进
图像插入次数 每步 1 张 按需动态 大幅减少
Token 消耗 100% 27.4% -72.6%

关键发现

  • DaP-ICoT 在 M3CoT 上相比 ICoT 绝对提升 +14.9%(Chameleon)/ +1.7%(LLaVA),说明动态插入比固定插入更有效
  • Token 消耗减少 72.6% 但性能反而更好——证明大量视觉插入是冗余的
  • SAM2 物体级选择 vs patch 级选择:完整物体子图带来更连贯的语义信息
  • 置信度阈值 τ 是关键超参——太高导致过多插入,太低导致视觉辅助不足

亮点与洞察

  • 置信度做"开关"非常自然: 模型不确定时才需要"看图",高置信度时纯文本推理就够了。这是一种最小干预(minimum intervention)原则
  • SAM2 提供语义完整性: 物体级子图比零散 patch token 语义完整得多,减少"看了但没看懂"
  • 效率提升显著: 72.6% token 减少对实际部署意义重大——推理速度和 KV cache 压力都大幅降低
  • 跨模型泛化: 在 Chameleon-7B 和 LLaVA-V1.5 两个不同架构上都一致有效

局限性 / 可改进方向

  • 依赖 SAM2 的分割质量——如果分割失败或物体边界模糊,视觉思维质量下降
  • 置信度阈值 τ 需要手动设定,不同任务可能需要不同阈值
  • 仅测试在 7B 规模模型上,更大模型(70B+)的行为可能不同
  • 每步需要额外的 SAM2 前向传播 + 跨模态相似度计算,增加而非减少单步延迟(但总 token 少)
  • 未在视频理解等时间序列任务上验证

相关工作与启发

  • vs ICoT (CVPR 2025): 每步静态插入所有 token,冗余且碎片化;DaP-ICoT 动态+精确
  • vs SCAFFOLD (ACL 2025): 也做结构化 CoT 但未解决视觉插入冗余问题
  • vs CCoT (CVPR 2024): 组合式 CoT,不涉及视觉思维的动态控制

评分

  • 新颖性: ⭐⭐⭐⭐ 置信度驱动的动态视觉插入+SAM2 物体级选择,思路清晰实用
  • 实验充分度: ⭐⭐⭐⭐ 多基准多模型验证,效率分析充分
  • 写作质量: ⭐⭐⭐⭐ 图示直观,对比清晰
  • 价值: ⭐⭐⭐⭐ 对高效多模态推理有重要参考,72.6% token 减少有实际部署意义