MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval¶
日期: 2026-03-18
arXiv: 2603.17360
代码: GitHub
领域: 多模态/VLM
关键词: 组合图像检索, 链式思维推理, 多级视觉选择, MLLM, 意图分解
一句话总结¶
提出 MCoT-MVS,利用 MLLM 的链式思维推理将组合图像检索(CIR)中的用户意图分解为"保留/删除/目标"三部分文本,指导 patch 级和实例级双层视觉选择,在 CIRR 和 FashionIQ 上达到新 SOTA。
研究背景与动机¶
-
领域现状: 组合图像检索(CIR)任务:给定参考图像 + 修改文本,检索符合修改意图的目标图像。现有方法用全局特征融合或交叉注意力对齐参考图和修改文本。
-
现有痛点: 基于注意力的方法依赖浅层视觉-语言相似度来选择参考图中的相关区域——这会导致虚假语义关联。比如修改文本说"去掉摩托车上的人",但"人+摩托车"因为语义相关反而被注意力机制保留了(应该删除)。
-
核心矛盾: 模型需要理解"哪些视觉元素该保留、哪些该删除",但注意力机制只能捕捉相关性,无法做显式的保留/删除推理。
-
切入角度: 用 MLLM 做链式思维推理,显式分解用户意图——"保留什么"、"删除什么"、"目标是什么"——然后用这些文本线索指导视觉特征选择。
-
核心 idea: CoT 推理生成保留/删除/目标三类文本 → patch 级 + 实例级双层视觉注意力选择 → 加权层次融合对齐目标图像。
方法详解¶
整体框架¶
- 多模态 CoT 推理: MLLM 接收参考图+修改文本,输出保留文本 RT、删除文本 DT、目标文本 TT
- Patch 级视觉选择 (PVRS): 用 RT/DT 的 CLIP 文本嵌入与每个 patch 计算相似度作为注意力权重,增强保留区域、抑制删除区域
- 实例级视觉选择 (IVRS): 用 Grounded-SAM 检测实例,同样用 RT/DT 选择相关/无关实例
- 加权层次融合 (WHC): 融合选择后的 patch 特征 + 实例特征 + 修改文本 + 目标文本,生成最终检索向量
关键设计¶
-
CoT 意图分解:
- 做什么:将模糊的多模态查询分解为显式的三部分语义
- 核心思路:设计统一的 CoT prompt,让 MLLM 依次理解参考图、理解修改文本、推断目标图像、分离保留/删除元素
- \(RT, DT, TT = \text{MLLM}(I^R, T; \text{CoT Prompt})\)
- 设计动机:比直接用注意力混合参考特征更精准——显式告诉模型哪些该留哪些该去
-
Patch 级视觉选择 (PVRS):
- 做什么:从参考图的 patch 特征中选择与保留意图对齐的区域
- 核心思路:计算每个 patch 与保留文本的相似度 \(\alpha_i^{P_+} = \text{Cos}(v_i^P, R^{RT})\) 和删除文本的相似度 \(\alpha_i^{P_-}\),加权重组 patch 特征
- 设计动机:patch 级提供精细的空间定位——比如保留背景中的山、删除前景的人
-
实例级视觉选择 (IVRS):
- 做什么:在语义实体层面选择相关/无关物体
- 核心思路:用 Grounded-SAM 检测参考图中的实例,提取实例特征,同样用 RT/DT 注意力选择
- 设计动机:patch 级可能无法捕捉完整物体(跨多个 patch),实例级提供物体级的整体语义补充
-
加权层次融合 (WHC):
- 做什么:将多粒度视觉特征与文本特征融合成检索向量
- 核心思路:分别构建修改文本引导的查询 \(Q^M\) 和目标文本引导的查询 \(Q^T\),加权融合为最终表示 \(\mathcal{F}\)
- 设计动机:修改文本和目标文本提供互补信息——前者描述"如何改",后者描述"改成什么"
实验关键数据¶
CIRR 基准¶
| 方法 | Recall@1 | Recall@5 | Recall@10 |
|---|---|---|---|
| MCoT-MVS | SOTA | SOTA | SOTA |
| CIRPLANT | baseline | - | - |
| ARTEMIS | +improvement | - | - |
| CIR-LVLM | strong baseline | - | - |
FashionIQ 基准¶
在 Dress、Shirt、Toptee 三个子集上均达到 SOTA。
消融实验¶
| 配置 | CIRR R@1 |
|---|---|
| 完整 MCoT-MVS | 最高 |
| 无 CoT 推理 | 显著下降 |
| 无 PVRS (patch选择) | 下降 |
| 无 IVRS (实例选择) | 下降 |
| 单纯注意力(无RT/DT引导) | 下降 |
双层选择(PVRS + IVRS)互补,CoT 推理是最关键组件。
亮点与洞察¶
- 从"相关性"到"因果性"的视觉选择:传统注意力只能选"相关的",但 CIR 需要明确"该保留的"和"该删除的"——CoT 推理提供了这种显式区分能力。这与 CIRCLES 论文(同在 daily 03-17)的反事实思想异曲同工。
- 多粒度互补:patch 级提供空间精度,实例级提供语义完整性——两者不可替代。
- MLLM 推理 + 传统视觉检索的融合:MLLM 只负责意图推理(轻量),实际检索仍用 CLIP embedding——避免了 MLLM 推理速度慢的瓶颈。
局限性 / 可改进方向¶
- MLLM 推理延迟:每个查询都需要一次 MLLM forward pass 做 CoT 推理,增加了检索延迟
- Grounded-SAM 依赖:实例级选择依赖额外的检测模型,增加了系统复杂度
- CoT 推理质量:如果 MLLM 分解意图不准确(保留/删除搞反了),后续选择全部出错——没有容错机制
相关工作与启发¶
- vs CIRCLES(同日03-17): CIRCLES 也做 CIR,但用反事实检索增强 ICL 示例选择;MCoT-MVS 直接在 CIR 任务中用 CoT 做意图分解——两篇互补
- vs CIR-LVLM: CIR-LVLM 微调 VLM 对齐特征,但将参考图作为整体处理;MCoT-MVS 显式做多级视觉选择更精细
- 启发:CoT 意图分解可以迁移到其他需要"选择性融合"的多模态任务——如视觉对话中从历史图片中选择相关视觉信息
评分¶
- 新颖性: ⭐⭐⭐⭐ CoT 推理驱动多级视觉选择的组合新颖,但各组件单独看不算新
- 实验充分度: ⭐⭐⭐⭐ CIRR + FashionIQ 双基准 + 消融
- 写作质量: ⭐⭐⭐⭐ 图示清晰,与现有方法的对比分析直观
- 价值: ⭐⭐⭐⭐ 发表在 WWW'26,对 CIR 社区有方法论贡献