CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation¶

会议: AAAI 2026
arXiv: 2503.05255
代码: https://github.com/zhangguanghao523/CMMCoT
领域: 多模态VLM
关键词: 多图理解, 多模态思维链, 测试时记忆增强, 视觉推理, 慢思考

一句话总结¶

提出 CMMCoT 框架，通过构建交错的多模态多步推理链（含视觉区域 token 监督）和测试时检索式记忆增强模块（RIFREM），在不增加参数的前提下提升多图场景下的慢思考推理能力，基于 Qwen2.5-VL-7B 在多图基准上平均提升 1.4 分。

背景与动机¶

当前 MLLM 在单图理解上已经很强，O1 风格的 CoT "慢思考"也在数学推理上取得了显著成功。但将这些方法扩展到多图理解场景时，效果显著下降，原因有二： 1. 现有多模态 CoT 方法（如 VoCoT、MVoT）主要针对单图场景设计，推理过程主要依赖文本信息，缺乏在推理链中对跨图视觉概念的显式追踪和对比能力。 2. 人类在分析多张图片时，会同时进行两个认知操作：(a) 跨图视觉对比——在不同图片间匹配感兴趣区域；(b) 动态记忆——在推理链中持续记住关键视觉概念。现有方法都没有模拟这两个过程。

另外，缺乏专门为多图多模态 CoT 设计的训练数据集，也极大限制了这方面的研究。

核心问题¶

跨图视觉概念追踪的复杂性：多图场景需要在不同图片间关联视觉物体并结合文本信息推理，远比单图困难。现有方法在训练时只监督文本推理链，忽略了视觉推理过程的监督。
测试时推理能力增强：test-time scaling 在简单场景有效，但在多图场景效果递减。如何在不增加参数的情况下增强推理时的视觉理解能力？

方法详解¶

整体框架¶

CMMCoT 基于 Qwen2-VL / Qwen2.5-VL 构建，包含训练和推理两个阶段： - 训练阶段：输入多张图片 + 问题，输出包含推理过程、实体坐标、实体图像的交错多模态序列。通过两阶段训练策略（先多图数据、再混合训练）学习多模态推理链。 - 推理阶段：模型生成推理文本，当预测到坐标时，根据图片索引和坐标提取实体图像，通过 RIFREM 模块将实体特征与记忆库中存储的多图 KV 对做交叉注意力，增强后续推理。

关键设计¶

交错多模态序列表示：
引入图片索引 token <IMG>0</IMG> 引用特定输入图片
使用 <|box_start|>(x0,y0),(x1,y1)<|box_end|> 表示实体坐标（归一化到0-1000）
使用 <|vision_start|>...<|vision_end|> 标记实体图像的视觉 token
训练时根据坐标和图片索引裁剪实体图像，通过视觉编码器编码，实体图像最低分辨率 512px 以提取更细节特征
Loss 只在文本、坐标和特殊 token 上计算，实体图像部分不参与 loss——这是一个关键设计，实体图像作为输入上下文而非预测目标
RIFREM（Retrieval-based Image Feature Reasoning Enhancement Module）：
推理时维护一个记忆库 \(\mathcal{M}\)，存储每层 decoder 的多图输入序列的 Key 和 Value
当推理过程中遇到 </IMG> token 时，根据坐标提取实体图像，注入 decoder 层，提取其 query 向量
这些 query 与记忆库中对应层的 KV 对做标准 scaled dot-product 交叉注意力：\(Q' = \text{softmax}(\frac{QK_\mathcal{M}^T}{\sqrt{d_k}})V_\mathcal{M}\)
增强后的 \(Q'\) 传入后续推理阶段，实现跨图视觉特征挖掘
消融实验表明：在所有 28 层都插入 RIFREM 延迟太大，只在首尾两层效果差，在 8 个均匀分布的层插入效果最优（精度-延迟最佳 trade-off）
CMMCoT-260K 数据集：
基于 GRIT、Flickr30k-Entities、VoCoT、MANTIS 等数据集构建
包含 4 种任务类型：Caption（50K）、Co-reference（90K）、Comparison（18K）、Reason（102K）
数据构建流程：GPT-4o 生成推理链 → Qwen3-235B 提取文本实体 → Qwen-VL-max 检测实体框 → GPT-4o 验证 IoU ≥ 0.9 → 空间融合生成统一框

损失函数 / 训练策略¶

两阶段训练：
Stage 1：在 CMMCoT-260K 上训练，lr=1e-5，2 epochs
Stage 2：CMMCoT-260K 与通用数据集 1:1 混合训练，lr=1e-6，1 epoch，batch size 256
优化器：AdamW（β=0.95，weight decay=0.1），cosine lr scheduler
使用 DeepSpeed ZeRO-3
训练 prompt："Please answer the question with reasoning and identify key objects."
Stage 2 的混合训练用于缓解多图任务导致的灾难性遗忘

实验关键数据¶

多图基准 (Table 1)¶

模型	参数	BLINK	Mantis	NLVR2	MVBench	Q-Bench	Avg
Qwen2.5-VL	7B	55.3	69.8	88.3	74.7	77.7	73.2
Qwen2.5-VL (Ours)	7B	56.8	72.2	89.9	75.8	78.5	74.6
InternVL3	8B	55.5	70.1	88.5	75.4	75.9	73.1
Qwen2.5-VL	3B	49.1	62.7	86.2	71.3	74.9	68.8
Qwen2.5-VL (Ours)	3B	51.4	68.5	88.9	73.1	75.2	71.4

单图基准 (Table 2)¶

模型	参数	MMMU	MMStar	SQA	RealWorldQA	MME	POPE	HallBench	Avg
Qwen2.5-VL	7B	58.6	63.9	89.0	68.4	82.6	85.9	51.9	71.4
Qwen2.5-VL (Ours)	7B	57.5	66.4	96.8	71.6	83.5	89.2	63.6	75.5
InternVL3	8B	62.7	68.7	97.9	71.4	86.5	90.4	49.0	75.2

消融实验要点¶

模块组合消融 (Table 3, Qwen2.5-VL-7B)： | Grounding | Entity Images | RIFREM | BLINK | Mantis | NLVR2 | MVBench | Q-Bench | Avg | |-----------|---------------|--------|-------|--------|-------|---------|---------|-----| | ✘ | ✘ | ✘ | 55.3 | 69.8 | 88.3 | 74.7 | 77.7 | 73.2 | | ✓ | ✘ | ✘ | 55.2 | 70.4 | 88.7 | 74.5 | 77.9 | 73.3 | | ✓ | ✓ | ✘ | 57.1 | 71.6 | 89.4 | 75.4 | 78.7 | 74.4 | | ✓ | ✓ | ✓ | 56.8 | 72.2 | 89.9 | 75.8 | 78.5 | 74.6 |

单独加 grounding 只提升 0.1 分（效果有限）
grounding + entity images 提升 1.2 分（最大贡献，说明视觉实体特征的注入是核心）
加 RIFREM 再提 0.2 分（推理时增强效果温和但稳定）

RIFREM 层数消融： - Group 1（仅首尾2层）：效果反而下降，因为破坏了信息流 - Group 3（8个均匀分布层）：最佳精度-延迟 trade-off - Group 5（所有层）：精度最高但延迟过大

不同模型微调验证 (Table 4)： - LLaVA-v1.5/v1.6、Mantis 在 CMMCoT 微调后性能大幅下降（缺乏定位能力） - LLaVA-OV 有预训练定位数据，下降较小 - Qwen2-VL 有内置定位能力，微调后性能提升 - 结论：CMMCoT 要求基座模型具备较强的视觉定位能力

亮点¶

将 CoT 从单图扩展到多图是一个有价值的方向，且做法系统完整（数据集 + 训练 + 推理模块）
实体图像不参与 loss 计算的设计很巧妙——将裁剪的实体图像作为推理上下文注入，但不作为预测目标，避免了视觉 token 重建的困难
RIFREM 模块是即插即用的推理时增强，不需要额外训练参数，思路类似 RAG 但应用在视觉 token 层面
CMMCoT-260K 数据集构建流程（GPT-4o 生成链 → IoU 验证 → 空间融合）实用且可复用

局限性 / 可改进方向¶

提升幅度有限：多图 Avg 仅提升 1.4 分（73.2→74.6），单图提升更多（71.4→75.5，但主要来自 SQA 和 HallBench 两个基准的大幅提升）
强依赖基座模型的定位能力：Table 4 证明了对于没有 grounding 能力的模型，CMMCoT 微调反而有害。这大大限制了方法的通用性
RIFREM 的延迟开销未充分量化：文中只用相对比较，没有给出绝对延迟数字；8 层 RIFREM 的额外计算成本在实际部署中可能不可忽视
数据集质量依赖多个闭源 API（GPT-4o、Qwen-VL-max），复现成本高
MMMU 指标反而下降（58.6→57.5），说明在某些单图理解场景上存在负迁移
缺少与同期多图 CoT 工作（如 MVoT）的直接对比实验

与相关工作的对比¶

VoCoT / MVoT：这是最直接的相关工作。VoCoT 和 MVoT 主要针对单图场景利用视觉 CoT 增强推理，CMMCoT 显式将其扩展到多图场景，且引入了跨图记忆增强。但 VoCoT/MVoT 不需要基座模型有 grounding 能力，适用性更广。
Virgo：利用文本推理能力指导视觉推理，但忽略了训练时对视觉推理过程的监督。CMMCoT 在推理链中显式加入实体坐标和实体图像作为视觉监督信号。
LLaVA-CoT / Visual-CoT：用外部工具标注文本推理链，CMMCoT 不仅有文本链还有视觉链（坐标+实体图像），更适合多图场景的跨图推理。

启发与关联¶

RIFREM 的记忆库思路可以与 overthinking-guided adaptive inference 结合——在模型"想太多"时提前 early exit，在需要深入推理时调用 RIFREM 增强
数据集构建中 "用 IoU ≥ 0.9 过滤坐标质量" 的方法可迁移到其他需要 grounding 标注的数据集
实体图像作为推理上下文注入（但不计算 loss）的思路，可以推广到视频理解中的关键帧推理

评分¶

新颖性: ⭐⭐⭐ 多图 CoT 是一个自然延伸方向，RIFREM 的记忆库检索设计有亮点但不算突破性创新
实验充分度: ⭐⭐⭐⭐ 多图/单图基准都做了，消融也比较全面（模块组合、RIFREM 层数、不同基座模型），但缺少与同期方法的直接对比
写作质量: ⭐⭐⭐ 整体清晰但结构有些混乱（Method 和 Experiments 穿插了一些表格），部分设计的 motivation 可以讲得更直观
价值: ⭐⭐⭐ 方向有意义，CMMCoT-260K 数据集有复用价值，但提升幅度有限且强依赖基座模型的 grounding 能力，实际影响可能受限