MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval¶

日期: 2026-03-18
arXiv: 2603.17360
代码: GitHub
领域: 多模态/VLM
关键词: 组合图像检索, 链式思维推理, 多级视觉选择, MLLM, 意图分解

一句话总结¶

提出 MCoT-MVS，利用 MLLM 的链式思维推理将组合图像检索（CIR）中的用户意图分解为"保留/删除/目标"三部分文本，指导 patch 级和实例级双层视觉选择，在 CIRR 和 FashionIQ 上达到新 SOTA。

研究背景与动机¶

领域现状: 组合图像检索（CIR）任务：给定参考图像 + 修改文本，检索符合修改意图的目标图像。现有方法用全局特征融合或交叉注意力对齐参考图和修改文本。
现有痛点: 基于注意力的方法依赖浅层视觉-语言相似度来选择参考图中的相关区域——这会导致虚假语义关联。比如修改文本说"去掉摩托车上的人"，但"人+摩托车"因为语义相关反而被注意力机制保留了（应该删除）。
核心矛盾: 模型需要理解"哪些视觉元素该保留、哪些该删除"，但注意力机制只能捕捉相关性，无法做显式的保留/删除推理。
切入角度: 用 MLLM 做链式思维推理，显式分解用户意图——"保留什么"、"删除什么"、"目标是什么"——然后用这些文本线索指导视觉特征选择。
核心 idea: CoT 推理生成保留/删除/目标三类文本 → patch 级 + 实例级双层视觉注意力选择 → 加权层次融合对齐目标图像。

方法详解¶

整体框架¶

多模态 CoT 推理: MLLM 接收参考图+修改文本，输出保留文本 RT、删除文本 DT、目标文本 TT
Patch 级视觉选择 (PVRS): 用 RT/DT 的 CLIP 文本嵌入与每个 patch 计算相似度作为注意力权重，增强保留区域、抑制删除区域
实例级视觉选择 (IVRS): 用 Grounded-SAM 检测实例，同样用 RT/DT 选择相关/无关实例
加权层次融合 (WHC): 融合选择后的 patch 特征 + 实例特征 + 修改文本 + 目标文本，生成最终检索向量

关键设计¶

CoT 意图分解:
- 做什么：将模糊的多模态查询分解为显式的三部分语义
- 核心思路：设计统一的 CoT prompt，让 MLLM 依次理解参考图、理解修改文本、推断目标图像、分离保留/删除元素
- \(RT, DT, TT = \text{MLLM}(I^R, T; \text{CoT Prompt})\)
- 设计动机：比直接用注意力混合参考特征更精准——显式告诉模型哪些该留哪些该去
Patch 级视觉选择 (PVRS):
- 做什么：从参考图的 patch 特征中选择与保留意图对齐的区域
- 核心思路：计算每个 patch 与保留文本的相似度 \(\alpha_i^{P_+} = \text{Cos}(v_i^P, R^{RT})\) 和删除文本的相似度 \(\alpha_i^{P_-}\)，加权重组 patch 特征
- 设计动机：patch 级提供精细的空间定位——比如保留背景中的山、删除前景的人
实例级视觉选择 (IVRS):
- 做什么：在语义实体层面选择相关/无关物体
- 核心思路：用 Grounded-SAM 检测参考图中的实例，提取实例特征，同样用 RT/DT 注意力选择
- 设计动机：patch 级可能无法捕捉完整物体（跨多个 patch），实例级提供物体级的整体语义补充
加权层次融合 (WHC):
- 做什么：将多粒度视觉特征与文本特征融合成检索向量
- 核心思路：分别构建修改文本引导的查询 \(Q^M\) 和目标文本引导的查询 \(Q^T\)，加权融合为最终表示 \(\mathcal{F}\)
- 设计动机：修改文本和目标文本提供互补信息——前者描述"如何改"，后者描述"改成什么"

实验关键数据¶

CIRR 基准¶

方法	Recall@1	Recall@5	Recall@10
MCoT-MVS	SOTA	SOTA	SOTA
CIRPLANT	baseline	-	-
ARTEMIS	+improvement	-	-
CIR-LVLM	strong baseline	-	-

FashionIQ 基准¶

在 Dress、Shirt、Toptee 三个子集上均达到 SOTA。

消融实验¶

配置	CIRR R@1
完整 MCoT-MVS	最高
无 CoT 推理	显著下降
无 PVRS (patch选择)	下降
无 IVRS (实例选择)	下降
单纯注意力（无RT/DT引导）	下降

双层选择（PVRS + IVRS）互补，CoT 推理是最关键组件。

亮点与洞察¶

从"相关性"到"因果性"的视觉选择：传统注意力只能选"相关的"，但 CIR 需要明确"该保留的"和"该删除的"——CoT 推理提供了这种显式区分能力。这与 CIRCLES 论文（同在 daily 03-17）的反事实思想异曲同工。
多粒度互补：patch 级提供空间精度，实例级提供语义完整性——两者不可替代。
MLLM 推理 + 传统视觉检索的融合：MLLM 只负责意图推理（轻量），实际检索仍用 CLIP embedding——避免了 MLLM 推理速度慢的瓶颈。

局限性 / 可改进方向¶

MLLM 推理延迟：每个查询都需要一次 MLLM forward pass 做 CoT 推理，增加了检索延迟
Grounded-SAM 依赖：实例级选择依赖额外的检测模型，增加了系统复杂度
CoT 推理质量：如果 MLLM 分解意图不准确（保留/删除搞反了），后续选择全部出错——没有容错机制

评分¶

新颖性: ⭐⭐⭐⭐ CoT 推理驱动多级视觉选择的组合新颖，但各组件单独看不算新
实验充分度: ⭐⭐⭐⭐ CIRR + FashionIQ 双基准 + 消融
写作质量: ⭐⭐⭐⭐ 图示清晰，与现有方法的对比分析直观
价值: ⭐⭐⭐⭐ 发表在 WWW'26，对 CIR 社区有方法论贡献