Let's Think with Images Efficiently! An Interleaved-Modal Chain-of-Thought Reasoning Framework with Dynamic and Precise Visual Thoughts (DaP-ICoT)¶

日期: 2026-03-23
arXiv: 2603.21754
代码: DaP-ICoT
领域: 多模态VLM / LLM推理
关键词: Interleaved-modal Chain-of-Thought, 动态视觉思维, SAM2分割, 置信度感知, token效率

一句话总结¶

针对交错模态思维链（ICoT）中静态视觉插入冗余和碎片化视觉 token 不连贯两大问题，提出 DaP-ICoT 框架：通过置信度感知的动态视觉思维集成（DVTI）和基于 SAM2 分割的精确视觉思维引导（PVTG），在 SOTA 推理精度下减少 72.6% 的 token 消耗。

研究背景与动机¶

领域现状：多模态大模型（MLLM）的推理能力日益强大，交错模态思维链（ICoT）允许模型在推理过程中同时产生文本和视觉输出，利用模态互补性提升推理效果。
现有痛点：（1）Static Visual Thought Positioning — 现有 ICoT 在每个推理步骤后固定插入视觉信息，导致大量冗余计算；（2）Broken Visual Thought Representation — 选择的不连续 image token 缺乏语义连贯性，损害理解能力。
核心矛盾：视觉信息对推理有帮助，但不加选择地在每一步都插入会引入噪声和冗余；而选择的碎片化 token 又无法传达完整语义。
本文要解决什么：如何在 ICoT 推理中实现按需、高效、语义连贯的视觉信息集成。
切入角度：从模型的推理置信度出发判断何时需要视觉辅助，用物体级分割而非 patch 级 token 保证视觉语义完整性。
核心 idea 一句话：只在模型"不确定"时插入"完整的物体图像"作为视觉思维，兼顾效率与精度。

方法详解¶

整体框架¶

DaP-ICoT 由两个核心模块组成：（1）DVTI 在每个推理步骤后计算模型置信度，仅在置信度低于阈值时触发视觉思维插入；（2）PVTG 使用 SAM2 对原始图像进行物体级分割，通过跨模态相关性选择与当前推理文本最相关的物体子图像插入。两个模块协同工作，最小化不必要的视觉信息同时更好地捕捉关键视觉线索。

关键设计¶

Dynamic Visual Thought Integration (DVTI)

做什么：基于置信度自适应决定是否在下一步推理中引入视觉思维
核心思路：在每个解码位置 \(i\) 计算 logit margin \(\delta_i = \ell_{w^{(1)}} - \ell_{w^{(2)}}\)（top-1 与 top-2 logit 之差），对整个 rationale \(T_t\) 取平均得到步骤置信度 \(C_t = \frac{1}{|T_t|} \sum_i \delta_i\)。当 \(C_t < \tau\) 时插入视觉输入，否则仅文本推理
设计动机：logit margin 直接反映模型对 token 选择的确定性，低 margin 说明模型犹豫，此时视觉辅助最有价值；避免在模型已确信时浪费计算资源

Precise Visual Thought Guidance (PVTG)

做什么：在需要视觉输入时，提供语义连贯的物体级视觉表示替代碎片化 token
核心思路：先用 SAM2 对原图分割得到物体候选集 \(\mathcal{O} = \{O_1, O_2, ..., O_N\}\)，再计算每个物体子图像与当前文本 rationale 的跨模态注意力相似度 \(s_i = f_{\text{attn}}(T_t, O_i)\)，选择得分最高的物体
设计动机：物体级子图像保留完整语义信息，相比随机 patch token 更连贯；跨模态相关性确保选择与推理上下文最相关的物体

损失函数 / 训练策略¶

DaP-ICoT 是一个 training-free 的推理框架，不需要额外训练。关键超参数：

置信度阈值 \(\tau\)：在 M3CoT 验证集上搜索 \((0, 1]\)，最优值为 0.2
使用各 MLLM 默认的 top-p 和 temperature 设置
在 Chameleon-7B、LLaVA-V1.5-(7B/13B)、Qwen2-VL-(2B/7B) 五个模型上验证通用性

实验关键数据¶

主实验¶

模型	方法	M3CoT 0-shot	ScienceQA 0-shot	MME 0-shot
Chameleon-7B	ICoT	26.1	44.5	794.8
Chameleon-7B	DaP-ICoT	41.0	57.1	832.3
Qwen2-VL-7B	ICoT	38.0	54.2	1587.3
Qwen2-VL-7B	DaP-ICoT	57.2	75.9	2012.2
LLaVA-V1.5-13B	ICoT	37.0	54.6	1405.4
LLaVA-V1.5-13B	DaP-ICoT	39.4	60.3	1556.3

消融实验¶

配置 (Qwen2-VL-7B)	M3CoT 0-shot	ScienceQA 0-shot
Full DaP-ICoT	57.2	75.9
w/o DVTI	42.8 (↓14.4)	55.1 (↓20.8)
w/o PVTG	43.4 (↓13.8)	55.5 (↓20.4)

关键发现¶

推理精度大幅提升：Chameleon-7B 上 M3CoT 0-shot 从 ICoT 的 26.1% 提升到 41.0%（+14.9），所有模型所有基准均为 SOTA
token 消耗减少 72.6%：DaP-ICoT 平均仅用 314 tokens vs ICoT 的 1146 tokens（Qwen2-VL-7B, M3CoT）
图像插入频率降低：每样本平均仅插入 1.2 张图像 vs ICoT 的 2.6 张，图像 token 仅 26 vs ICoT 大幅更多
置信度提升率更高：80.7% 的样本在插入视觉后置信度提升（vs ICoT 的 46.4%），说明 DaP-ICoT 选择性插入更有效
\(\tau=0.2\) 最优：过低 → 过多视觉插入浪费资源；过高 → 视觉辅助不足推理能力下降
DVTI 和 PVTG 缺一不可，各自移除导致约 14-21% 的性能下降

亮点与洞察¶

极简而有效的置信度机制：logit margin 是现成可得的信号，无需额外模块或训练，即插即用
training-free：不改模型权重，纯推理阶段的方法，可直接应用于任意 MLLM
SAM2 + 跨模态选择的组合：利用通用分割模型获得物体级语义完整表示，比 patch-level token 选择更合理
效率-精度双赢：同时提升精度和降低计算开销，这在 CoT 方法中很罕见

局限性 / 可改进方向¶

SAM2 分割本身有计算开销，文中未讨论整体推理延迟（虽然 token 减少，但分割步骤可能抵消部分收益）
阈值 \(\tau\) 需要在验证集上搜索，不同数据集可能需要不同阈值
仅选择单个最相关物体，多物体交互场景可能丢失信息
未在更大规模模型（如 70B+）或闭源 API 模型上验证
PVTG 依赖 SAM2 分割质量，对低质量或抽象图像（如图表/示意图）可能效果有限

评分¶

维度	分数 (1-10)	说明
新颖性	8	置信度驱动的动态视觉插入 + SAM2 物体级选择，思路新颖
实验充分度	9	5 个模型 × 3 个基准 × 0/1-shot + 详细消融与效率分析
写作质量	7	公式清晰但部分分析可以更深入
价值	8	training-free 方法，实用性强，对 ICoT 推理范式有重要改进
领域: 多模态VLM / 推理
关键词: interleaved-modal CoT, visual thought, dynamic insertion, SAM2, reasoning efficiency

一句话总结¶

提出 DaP-ICoT，通过置信度感知的动态视觉思维插入（低置信度时才插入图像）和 SAM2-based 精确物体级视觉选择（替代碎片化 patch token），在 M3CoT/ScienceQA/MME 等多基准上达 SOTA 同时减少 72.6% 的 token 消耗。

研究背景与动机¶

领域现状: Interleaved-modal CoT（ICoT）让 MLLM 在推理过程中交替输出文本和视觉思维，比纯文本 CoT 更强。已有方法如 Sketchpad、Image-of-Thought、SCAFFOLD 等。
现有痛点: (i) 静态视觉定位——每步推理后都机械地插入视觉信息，不区分推理步是否真正需要视觉辅助，冗余浪费；(ii) 碎片化视觉表示——选择不连续的 image patch token 作为视觉思维，语义断裂不连贯。
核心矛盾: 不是每步推理都需要视觉帮助（模型高置信度时纯文本已够），但现有方法一视同仁每步都插；选出的 token 是零散 patch 而非完整语义单元，"看了但看不懂"。
切入角度: 利用模型自身的 logit margin 衡量推理置信度来动态决策"何时"插入视觉思维；用 SAM2 做物体级分割来精确决定"插入什么"——完整物体子图而非碎片 token。
核心 idea: 置信度驱动的动态插入 + SAM2 物体级精确选择 = 高效且精确的 ICoT 推理。

方法详解¶

整体框架¶

ICoT 推理中，每步生成文本推理后：(1) DVTI 模块计算该步置信度，低于阈值τ则触发视觉插入；(2) PVTG 模块从 SAM2 分割的物体池中选择与当前推理最相关的物体子图；(3) 选中的物体图 interleave 到推理序列中，继续下一步。

关键设计¶

动态视觉思维插入（DVTI）:
- 做什么：根据模型推理置信度动态决定是否需要视觉辅助
- 核心思路：在每个解码位置 i 计算 logit margin \(\delta_i = \ell_{i,w^{(1)}} - \ell_{i,w^{(2)}}\)（top1 与 top2 logit 之差），聚合为该步平均置信度 \(C_t = \frac{1}{|T_t|}\sum_i \delta_i\)
- 决策规则：\(C_t < \tau\) 时插入视觉思维，否则跳过
- 设计动机：高置信度 = 模型已经确定，不需要额外视觉信息；低置信度 = 需要视觉辅助来消歧
- 效果：大幅减少不必要的图像插入，降低 72.6% token 消耗
精确视觉思维引导（PVTG）:
- 做什么：当 DVTI 触发插入时，精确选择最相关的完整物体子图
- 核心思路：先用 SAM2 对原图做物体级分割 → 得到候选物体子图集合 \(\mathcal{O} = \{O_1, ..., O_N\}\) → 计算当前文本推理 \(T_t\) 与每个 \(O_i\) 的跨模态相似度 \(s_i = f_{attn}(T_t, O_i)\) → 选最相关的 \(\hat{O} = \arg\max s_i\)
- 与 patch token 的区别：物体子图保留完整语义边界，不是任意裁剪的碎片
- 插入方式：\(\mathcal{R}_{t \to v} = \mathcal{R}_t \oplus \hat{O}\)，interleave 到推理序列中

训练/推理¶

完全 training-free，利用已有 MLLM 的推理能力 + SAM2 的分割能力，无需额外训练。

实验关键数据¶

多基准对比（Chameleon-7B）¶

方法	M3CoT (0-shot)	ScienceQA (1-shot)	MME (1-shot)
Direct	22.5	43.4	942.9
ICoT (CVPR 2025)	26.1	45.3	928.9
DaP-ICoT	41.0	62.9	1013.0

LLaVA-V1.5-7B 对比¶

方法	M3CoT	ScienceQA	MME
ICoT	34.6	46.7	1421.6
DaP-ICoT	36.3	51.1	1450+

效率分析¶

指标	ICoT	DaP-ICoT	改进
图像插入次数	每步 1 张	按需动态	大幅减少
Token 消耗	100%	27.4%	-72.6%

关键发现¶

DaP-ICoT 在 M3CoT 上相比 ICoT 绝对提升 +14.9%（Chameleon）/ +1.7%（LLaVA），说明动态插入比固定插入更有效
Token 消耗减少 72.6% 但性能反而更好——证明大量视觉插入是冗余的
SAM2 物体级选择 vs patch 级选择：完整物体子图带来更连贯的语义信息
置信度阈值 τ 是关键超参——太高导致过多插入，太低导致视觉辅助不足

亮点与洞察¶

置信度做"开关"非常自然: 模型不确定时才需要"看图"，高置信度时纯文本推理就够了。这是一种最小干预（minimum intervention）原则
SAM2 提供语义完整性: 物体级子图比零散 patch token 语义完整得多，减少"看了但没看懂"
效率提升显著: 72.6% token 减少对实际部署意义重大——推理速度和 KV cache 压力都大幅降低
跨模型泛化: 在 Chameleon-7B 和 LLaVA-V1.5 两个不同架构上都一致有效

局限性 / 可改进方向¶

依赖 SAM2 的分割质量——如果分割失败或物体边界模糊，视觉思维质量下降
置信度阈值 τ 需要手动设定，不同任务可能需要不同阈值
仅测试在 7B 规模模型上，更大模型（70B+）的行为可能不同
每步需要额外的 SAM2 前向传播 + 跨模态相似度计算，增加而非减少单步延迟（但总 token 少）
未在视频理解等时间序列任务上验证

评分¶

新颖性: ⭐⭐⭐⭐ 置信度驱动的动态视觉插入+SAM2 物体级选择，思路清晰实用
实验充分度: ⭐⭐⭐⭐ 多基准多模型验证，效率分析充分
写作质量: ⭐⭐⭐⭐ 图示直观，对比清晰
价值: ⭐⭐⭐⭐ 对高效多模态推理有重要参考，72.6% token 减少有实际部署意义

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

训练/推理¶

实验关键数据¶

多基准对比（Chameleon-7B）¶

LLaVA-V1.5-7B 对比¶

效率分析¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶