Interleaved-Modal Chain-of-Thought¶
会议: CVPR 2025
arXiv: 2411.19488
代码: https://github.com/jungao1106/ICoT
领域: LLM推理
关键词: Chain-of-Thought, 多模态推理, VLM, 交错模态, 注意力选择, 即插即用
一句话总结¶
提出交错模态思维链(ICoT),在推理步骤中穿插图像区域 crop 作为视觉 rationale,通过无参数的 Attention-driven Selection(ADS)从输入图像中智能选取关键区域插入生成序列,在 Chameleon 和 Qwen2-VL 上相比现有多模态 CoT 提升高达 14%。
研究背景与动机¶
- 领域现状:CoT 提示让 LLM 生成中间推理步骤再给出答案,已被推广到多模态 VLM。现有多模态 CoT(如 CCoT 生成场景图、DDCoT 分解子问题、SCAFFOLD 叠加坐标网格)都只生成纯文本 rationale。
- 现有痛点:文本 rationale 难以精确表达与原图的细粒度关联。例如"在图片顶部"这种文本描述太粗糙,无法准确定位图中的特定水果,导致推理错误。
- 核心矛盾:要实现图文交错的推理步骤,需要 VLM 能生成细粒度的多模态内容。但 Perceiver 架构的 VLM(如 Qwen2-VL)不能生成图像;统一建模的 VLM(如 Chameleon)可以生成图像但分辨率固定、且有"多模态生成惰性"。
- 切入角度:所需的视觉信息通常就是输入图像的一部分——不需要生成新图像,只需从输入图中"选取"相关区域插入推理序列。
- 核心idea:利用 VLM 自身的注意力图来识别当前推理步骤最关注的图像区域,将对应 patch 的 visual token 自动插入生成序列,形成"视觉+文本"交错的推理步骤。
方法详解¶
整体框架¶
ICoT 在标准多模态 CoT 的基础上,将每个推理步骤从纯文本扩展为"图像区域 + 文本 rationale"的配对形式。生成时,VLM 每到一个推理步骤边界(通过换行符 \n 检测),ADS 就从输入图像中选取最相关的 patch 插入,然后继续自回归生成后续文本。
关键设计¶
- Attention-driven Selection (ADS):
- 做什么:在每个推理步骤开始时,从输入图像中选取最相关的 patch 插入生成序列
- 核心思路:利用 VLM 生成信号 token(换行符)时的注意力分布,找到当前步骤最关注的输入图像 patch。取最后一层注意力矩阵中 signal token 对所有 visual token 的注意力权重,选取 top-k 个 patch(Chameleon 默认 64 个,Qwen2-VL 默认 16 个),将其 visual token 复制插入当前位置
-
设计动机:无参数化——只用注意力图,不需要训练任何新模块,即插即用;几乎零额外延迟;可适配多种 VLM 架构
-
ICoT 提示设计:
- 做什么:设计包含交错视觉-文本 rationale 的 few-shot 示例来引导 VLM
- 核心思路:人工构造 1-shot 示例,其中每个推理步骤都包含手动选取的细粒度图像区域和对应文本解释
- 设计动机:消融实验显示人工设计的 fine-grained 示例比模型自动生成的效果好(+0.8~1.6)
损失函数 / 训练策略¶
- 无需训练:ADS 是推理时的即插即用策略,零参数化
- 信号 token 默认为换行符
\n - Patch 粒度:Chameleon 16×16 选 64 个 patch,Qwen2-VL 28×28 选 16 个 patch
- 使用 eager attention 以获取注意力图
实验关键数据¶
主实验¶
基于 Chameleon-7B 的 0-shot 和 1-shot 结果:
| 方法 | M3CoT (0-shot) | ScienceQA (0-shot) | LLaVA-W (0-shot) |
|---|---|---|---|
| No-CoT | 24.6 | 44.6 | 22.3 |
| CoT | 26.1 | 46.2 | 23.5 |
| CCoT | 25.8 | 48.1 | 24.0 |
| DDCoT | 27.3 | 49.3 | 23.9 |
| SCAFFOLD | 28.0 | 50.2 | 23.1 |
| ICoT (ours) | 29.8 | 51.0 | 25.2 |
| 相对提升 | +6.4% | +1.6% | +5.0% |
Qwen2-VL-7B 上提升更大(M3CoT +4.6%, LLaVA-W +5.3%)。
消融实验¶
| 配置 | M3CoT | ScienceQA | LLaVA-W |
|---|---|---|---|
| ICoT (完整) | 32.3 | 53.4 | 27.6 |
| w/o ADS (纯文本) | 29.2 (-3.1) | 52.4 (-1.0) | 24.5 (-3.1) |
| w/o FVI (随机patch) | 30.6 (-1.8) | 52.8 (-0.6) | 25.9 (-1.7) |
| w/o ADS+FVI | 29.1 (-3.2) | 51.0 (-2.4) | 23.0 (-4.6) |
Patch 数量敏感性(Chameleon-7B, M3CoT)¶
| top-k patch 数 | 16 | 32 | 64 | 128 |
|---|---|---|---|---|
| 准确率 | 28.4 | 29.1 | 29.8 | 29.5 |
选取过少则信息不够,过多则引入噪声;Chameleon 上 k=64 为最优平衡点。
关键发现¶
- ADS 贡献最大:去掉 ADS 掉 3.1 个点(M3CoT),说明交错模态推理本身比好的示例更重要
- LLaVA-W 上提升最显著:因为该 benchmark 的参考答案包含大量图像细节
- KV Cache 复制 vs Token 插入:直接复制 KV Cache 略差(-0.5~0.8),因为位置信息在 KV Cache 中已早期融合
- ScienceQA 提升相对较小:该数据集相对简单,不太依赖细粒度视觉信息
- 推理开销可控:ADS 仅需读取已有注意力矩阵并做 top-k 排序,额外延迟 <5%
亮点与洞察¶
- 核心洞察简洁有力:多模态推理中所需的视觉信息通常就在输入图里,不需要"生成"新图像,只需"选取"——极大简化了实现。
- 真正的即插即用:无需训练、无需修改模型架构,只利用现有模型的注意力图,可以立即应用到任何 VLM。
- 与人类思维对齐:人在推理视觉问题时也是"看一眼特定区域+思考+再看+再思考"的交替过程,ICoT 是对这一过程的直接模拟。
局限性 / 可改进方向¶
- 仅限输入图的子区域:如果推理需要外部视觉信息(如想象、知识检索),ICoT 无法帮助
- Patch 粒度固定:选取粒度在所有推理步骤中固定,可能有的步骤需要更粗/更细的视觉聚焦
- 需要 eager attention:不兼容 flash attention,可能影响长序列推理效率
- 评估基准相对有限:未在更复杂的数学推理 benchmark 上验证(如 MathVista)
相关工作与启发¶
- vs CCoT:CCoT 生成场景图(JSON 描述),本质仍是文本。ICoT 直接插入图像 patch,提供更精确的视觉 grounding。
- vs SCAFFOLD:SCAFFOLD 叠加坐标网格让 VLM 用坐标描述位置,仍依赖文本。ICoT 直接用视觉 token 跳过文本媒介。
- vs DDCoT:DDCoT 关注推理结构(分解子问题),ICoT 关注推理模态(图文交错),两者可结合。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个在CoT推理步骤中插入图像的工作,观察精准
- 实验充分度: ⭐⭐⭐ 三个benchmark较为有限,缺少更难的推理任务评估
- 写作质量: ⭐⭐⭐⭐ 问题阐述清晰,方法简洁易懂
- 价值: ⭐⭐⭐⭐ 即插即用的实用性很强,对多模态推理有实际意义