CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation¶
会议: AAAI 2026
arXiv: 2503.05255
代码: https://github.com/zhangguanghao523/CMMCoT
领域: 多模态VLM
关键词: 多图理解, 多模态思维链, 测试时记忆增强, 视觉推理, 慢思考
一句话总结¶
提出 CMMCoT 框架,通过构建交错的多模态多步推理链(含视觉区域 token 监督)和测试时检索式记忆增强模块(RIFREM),在不增加参数的前提下提升多图场景下的慢思考推理能力,基于 Qwen2.5-VL-7B 在多图基准上平均提升 1.4 分。
背景与动机¶
当前 MLLM 在单图理解上已经很强,O1 风格的 CoT "慢思考"也在数学推理上取得了显著成功。但将这些方法扩展到多图理解场景时,效果显著下降,原因有二: 1. 现有多模态 CoT 方法(如 VoCoT、MVoT)主要针对单图场景设计,推理过程主要依赖文本信息,缺乏在推理链中对跨图视觉概念的显式追踪和对比能力。 2. 人类在分析多张图片时,会同时进行两个认知操作:(a) 跨图视觉对比——在不同图片间匹配感兴趣区域;(b) 动态记忆——在推理链中持续记住关键视觉概念。现有方法都没有模拟这两个过程。
另外,缺乏专门为多图多模态 CoT 设计的训练数据集,也极大限制了这方面的研究。
核心问题¶
- 跨图视觉概念追踪的复杂性:多图场景需要在不同图片间关联视觉物体并结合文本信息推理,远比单图困难。现有方法在训练时只监督文本推理链,忽略了视觉推理过程的监督。
- 测试时推理能力增强:test-time scaling 在简单场景有效,但在多图场景效果递减。如何在不增加参数的情况下增强推理时的视觉理解能力?
方法详解¶
整体框架¶
CMMCoT 基于 Qwen2-VL / Qwen2.5-VL 构建,包含训练和推理两个阶段: - 训练阶段:输入多张图片 + 问题,输出包含推理过程、实体坐标、实体图像的交错多模态序列。通过两阶段训练策略(先多图数据、再混合训练)学习多模态推理链。 - 推理阶段:模型生成推理文本,当预测到坐标时,根据图片索引和坐标提取实体图像,通过 RIFREM 模块将实体特征与记忆库中存储的多图 KV 对做交叉注意力,增强后续推理。
关键设计¶
- 交错多模态序列表示:
- 引入图片索引 token
<IMG>0</IMG>引用特定输入图片 - 使用
<|box_start|>(x0,y0),(x1,y1)<|box_end|>表示实体坐标(归一化到0-1000) - 使用
<|vision_start|>...<|vision_end|>标记实体图像的视觉 token - 训练时根据坐标和图片索引裁剪实体图像,通过视觉编码器编码,实体图像最低分辨率 512px 以提取更细节特征
-
Loss 只在文本、坐标和特殊 token 上计算,实体图像部分不参与 loss——这是一个关键设计,实体图像作为输入上下文而非预测目标
-
RIFREM(Retrieval-based Image Feature Reasoning Enhancement Module):
- 推理时维护一个记忆库 \(\mathcal{M}\),存储每层 decoder 的多图输入序列的 Key 和 Value
- 当推理过程中遇到
</IMG>token 时,根据坐标提取实体图像,注入 decoder 层,提取其 query 向量 - 这些 query 与记忆库中对应层的 KV 对做标准 scaled dot-product 交叉注意力:\(Q' = \text{softmax}(\frac{QK_\mathcal{M}^T}{\sqrt{d_k}})V_\mathcal{M}\)
- 增强后的 \(Q'\) 传入后续推理阶段,实现跨图视觉特征挖掘
-
消融实验表明:在所有 28 层都插入 RIFREM 延迟太大,只在首尾两层效果差,在 8 个均匀分布的层插入效果最优(精度-延迟最佳 trade-off)
-
CMMCoT-260K 数据集:
- 基于 GRIT、Flickr30k-Entities、VoCoT、MANTIS 等数据集构建
- 包含 4 种任务类型:Caption(50K)、Co-reference(90K)、Comparison(18K)、Reason(102K)
- 数据构建流程:GPT-4o 生成推理链 → Qwen3-235B 提取文本实体 → Qwen-VL-max 检测实体框 → GPT-4o 验证 IoU ≥ 0.9 → 空间融合生成统一框
损失函数 / 训练策略¶
- 两阶段训练:
- Stage 1:在 CMMCoT-260K 上训练,lr=1e-5,2 epochs
- Stage 2:CMMCoT-260K 与通用数据集 1:1 混合训练,lr=1e-6,1 epoch,batch size 256
- 优化器:AdamW(β=0.95,weight decay=0.1),cosine lr scheduler
- 使用 DeepSpeed ZeRO-3
- 训练 prompt:"Please answer the question with reasoning and identify key objects."
- Stage 2 的混合训练用于缓解多图任务导致的灾难性遗忘
实验关键数据¶
多图基准 (Table 1)¶
| 模型 | 参数 | BLINK | Mantis | NLVR2 | MVBench | Q-Bench | Avg |
|---|---|---|---|---|---|---|---|
| Qwen2.5-VL | 7B | 55.3 | 69.8 | 88.3 | 74.7 | 77.7 | 73.2 |
| Qwen2.5-VL (Ours) | 7B | 56.8 | 72.2 | 89.9 | 75.8 | 78.5 | 74.6 |
| InternVL3 | 8B | 55.5 | 70.1 | 88.5 | 75.4 | 75.9 | 73.1 |
| Qwen2.5-VL | 3B | 49.1 | 62.7 | 86.2 | 71.3 | 74.9 | 68.8 |
| Qwen2.5-VL (Ours) | 3B | 51.4 | 68.5 | 88.9 | 73.1 | 75.2 | 71.4 |
单图基准 (Table 2)¶
| 模型 | 参数 | MMMU | MMStar | SQA | RealWorldQA | MME | POPE | HallBench | Avg |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL | 7B | 58.6 | 63.9 | 89.0 | 68.4 | 82.6 | 85.9 | 51.9 | 71.4 |
| Qwen2.5-VL (Ours) | 7B | 57.5 | 66.4 | 96.8 | 71.6 | 83.5 | 89.2 | 63.6 | 75.5 |
| InternVL3 | 8B | 62.7 | 68.7 | 97.9 | 71.4 | 86.5 | 90.4 | 49.0 | 75.2 |
消融实验要点¶
模块组合消融 (Table 3, Qwen2.5-VL-7B): | Grounding | Entity Images | RIFREM | BLINK | Mantis | NLVR2 | MVBench | Q-Bench | Avg | |-----------|---------------|--------|-------|--------|-------|---------|---------|-----| | ✘ | ✘ | ✘ | 55.3 | 69.8 | 88.3 | 74.7 | 77.7 | 73.2 | | ✓ | ✘ | ✘ | 55.2 | 70.4 | 88.7 | 74.5 | 77.9 | 73.3 | | ✓ | ✓ | ✘ | 57.1 | 71.6 | 89.4 | 75.4 | 78.7 | 74.4 | | ✓ | ✓ | ✓ | 56.8 | 72.2 | 89.9 | 75.8 | 78.5 | 74.6 |
- 单独加 grounding 只提升 0.1 分(效果有限)
- grounding + entity images 提升 1.2 分(最大贡献,说明视觉实体特征的注入是核心)
- 加 RIFREM 再提 0.2 分(推理时增强效果温和但稳定)
RIFREM 层数消融: - Group 1(仅首尾2层):效果反而下降,因为破坏了信息流 - Group 3(8个均匀分布层):最佳精度-延迟 trade-off - Group 5(所有层):精度最高但延迟过大
不同模型微调验证 (Table 4): - LLaVA-v1.5/v1.6、Mantis 在 CMMCoT 微调后性能大幅下降(缺乏定位能力) - LLaVA-OV 有预训练定位数据,下降较小 - Qwen2-VL 有内置定位能力,微调后性能提升 - 结论:CMMCoT 要求基座模型具备较强的视觉定位能力
亮点¶
- 将 CoT 从单图扩展到多图是一个有价值的方向,且做法系统完整(数据集 + 训练 + 推理模块)
- 实体图像不参与 loss 计算的设计很巧妙——将裁剪的实体图像作为推理上下文注入,但不作为预测目标,避免了视觉 token 重建的困难
- RIFREM 模块是即插即用的推理时增强,不需要额外训练参数,思路类似 RAG 但应用在视觉 token 层面
- CMMCoT-260K 数据集构建流程(GPT-4o 生成链 → IoU 验证 → 空间融合)实用且可复用
局限性 / 可改进方向¶
- 提升幅度有限:多图 Avg 仅提升 1.4 分(73.2→74.6),单图提升更多(71.4→75.5,但主要来自 SQA 和 HallBench 两个基准的大幅提升)
- 强依赖基座模型的定位能力:Table 4 证明了对于没有 grounding 能力的模型,CMMCoT 微调反而有害。这大大限制了方法的通用性
- RIFREM 的延迟开销未充分量化:文中只用相对比较,没有给出绝对延迟数字;8 层 RIFREM 的额外计算成本在实际部署中可能不可忽视
- 数据集质量依赖多个闭源 API(GPT-4o、Qwen-VL-max),复现成本高
- MMMU 指标反而下降(58.6→57.5),说明在某些单图理解场景上存在负迁移
- 缺少与同期多图 CoT 工作(如 MVoT)的直接对比实验
与相关工作的对比¶
- VoCoT / MVoT:这是最直接的相关工作。VoCoT 和 MVoT 主要针对单图场景利用视觉 CoT 增强推理,CMMCoT 显式将其扩展到多图场景,且引入了跨图记忆增强。但 VoCoT/MVoT 不需要基座模型有 grounding 能力,适用性更广。
- Virgo:利用文本推理能力指导视觉推理,但忽略了训练时对视觉推理过程的监督。CMMCoT 在推理链中显式加入实体坐标和实体图像作为视觉监督信号。
- LLaVA-CoT / Visual-CoT:用外部工具标注文本推理链,CMMCoT 不仅有文本链还有视觉链(坐标+实体图像),更适合多图场景的跨图推理。
启发与关联¶
- RIFREM 的记忆库思路可以与 overthinking-guided adaptive inference 结合——在模型"想太多"时提前 early exit,在需要深入推理时调用 RIFREM 增强
- 数据集构建中 "用 IoU ≥ 0.9 过滤坐标质量" 的方法可迁移到其他需要 grounding 标注的数据集
- 实体图像作为推理上下文注入(但不计算 loss)的思路,可以推广到视频理解中的关键帧推理
评分¶
- 新颖性: ⭐⭐⭐ 多图 CoT 是一个自然延伸方向,RIFREM 的记忆库检索设计有亮点但不算突破性创新
- 实验充分度: ⭐⭐⭐⭐ 多图/单图基准都做了,消融也比较全面(模块组合、RIFREM 层数、不同基座模型),但缺少与同期方法的直接对比
- 写作质量: ⭐⭐⭐ 整体清晰但结构有些混乱(Method 和 Experiments 穿插了一些表格),部分设计的 motivation 可以讲得更直观
- 价值: ⭐⭐⭐ 方向有意义,CMMCoT-260K 数据集有复用价值,但提升幅度有限且强依赖基座模型的 grounding 能力,实际影响可能受限