跳转至

MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval

日期: 2026-03-18
arXiv: 2603.17360
代码: GitHub
领域: 多模态/VLM
关键词: 组合图像检索, 链式思维推理, 多级视觉选择, MLLM, 意图分解

一句话总结

提出 MCoT-MVS,利用 MLLM 的链式思维推理将组合图像检索(CIR)中的用户意图分解为"保留/删除/目标"三部分文本,指导 patch 级和实例级双层视觉选择,在 CIRR 和 FashionIQ 上达到新 SOTA。

研究背景与动机

  1. 领域现状: 组合图像检索(CIR)任务:给定参考图像 + 修改文本,检索符合修改意图的目标图像。现有方法用全局特征融合或交叉注意力对齐参考图和修改文本。

  2. 现有痛点: 基于注意力的方法依赖浅层视觉-语言相似度来选择参考图中的相关区域——这会导致虚假语义关联。比如修改文本说"去掉摩托车上的人",但"人+摩托车"因为语义相关反而被注意力机制保留了(应该删除)。

  3. 核心矛盾: 模型需要理解"哪些视觉元素该保留、哪些该删除",但注意力机制只能捕捉相关性,无法做显式的保留/删除推理。

  4. 切入角度: 用 MLLM 做链式思维推理,显式分解用户意图——"保留什么"、"删除什么"、"目标是什么"——然后用这些文本线索指导视觉特征选择。

  5. 核心 idea: CoT 推理生成保留/删除/目标三类文本 → patch 级 + 实例级双层视觉注意力选择 → 加权层次融合对齐目标图像。

方法详解

整体框架

  1. 多模态 CoT 推理: MLLM 接收参考图+修改文本,输出保留文本 RT、删除文本 DT、目标文本 TT
  2. Patch 级视觉选择 (PVRS): 用 RT/DT 的 CLIP 文本嵌入与每个 patch 计算相似度作为注意力权重,增强保留区域、抑制删除区域
  3. 实例级视觉选择 (IVRS): 用 Grounded-SAM 检测实例,同样用 RT/DT 选择相关/无关实例
  4. 加权层次融合 (WHC): 融合选择后的 patch 特征 + 实例特征 + 修改文本 + 目标文本,生成最终检索向量

关键设计

  1. CoT 意图分解:

    • 做什么:将模糊的多模态查询分解为显式的三部分语义
    • 核心思路:设计统一的 CoT prompt,让 MLLM 依次理解参考图、理解修改文本、推断目标图像、分离保留/删除元素
    • \(RT, DT, TT = \text{MLLM}(I^R, T; \text{CoT Prompt})\)
    • 设计动机:比直接用注意力混合参考特征更精准——显式告诉模型哪些该留哪些该去
  2. Patch 级视觉选择 (PVRS):

    • 做什么:从参考图的 patch 特征中选择与保留意图对齐的区域
    • 核心思路:计算每个 patch 与保留文本的相似度 \(\alpha_i^{P_+} = \text{Cos}(v_i^P, R^{RT})\) 和删除文本的相似度 \(\alpha_i^{P_-}\),加权重组 patch 特征
    • 设计动机:patch 级提供精细的空间定位——比如保留背景中的山、删除前景的人
  3. 实例级视觉选择 (IVRS):

    • 做什么:在语义实体层面选择相关/无关物体
    • 核心思路:用 Grounded-SAM 检测参考图中的实例,提取实例特征,同样用 RT/DT 注意力选择
    • 设计动机:patch 级可能无法捕捉完整物体(跨多个 patch),实例级提供物体级的整体语义补充
  4. 加权层次融合 (WHC):

    • 做什么:将多粒度视觉特征与文本特征融合成检索向量
    • 核心思路:分别构建修改文本引导的查询 \(Q^M\) 和目标文本引导的查询 \(Q^T\),加权融合为最终表示 \(\mathcal{F}\)
    • 设计动机:修改文本和目标文本提供互补信息——前者描述"如何改",后者描述"改成什么"

实验关键数据

CIRR 基准

方法 Recall@1 Recall@5 Recall@10
MCoT-MVS SOTA SOTA SOTA
CIRPLANT baseline - -
ARTEMIS +improvement - -
CIR-LVLM strong baseline - -

FashionIQ 基准

在 Dress、Shirt、Toptee 三个子集上均达到 SOTA。

消融实验

配置 CIRR R@1
完整 MCoT-MVS 最高
无 CoT 推理 显著下降
无 PVRS (patch选择) 下降
无 IVRS (实例选择) 下降
单纯注意力(无RT/DT引导) 下降

双层选择(PVRS + IVRS)互补,CoT 推理是最关键组件。

亮点与洞察

  • 从"相关性"到"因果性"的视觉选择:传统注意力只能选"相关的",但 CIR 需要明确"该保留的"和"该删除的"——CoT 推理提供了这种显式区分能力。这与 CIRCLES 论文(同在 daily 03-17)的反事实思想异曲同工。
  • 多粒度互补:patch 级提供空间精度,实例级提供语义完整性——两者不可替代。
  • MLLM 推理 + 传统视觉检索的融合:MLLM 只负责意图推理(轻量),实际检索仍用 CLIP embedding——避免了 MLLM 推理速度慢的瓶颈。

局限性 / 可改进方向

  • MLLM 推理延迟:每个查询都需要一次 MLLM forward pass 做 CoT 推理,增加了检索延迟
  • Grounded-SAM 依赖:实例级选择依赖额外的检测模型,增加了系统复杂度
  • CoT 推理质量:如果 MLLM 分解意图不准确(保留/删除搞反了),后续选择全部出错——没有容错机制

相关工作与启发

  • vs CIRCLES(同日03-17): CIRCLES 也做 CIR,但用反事实检索增强 ICL 示例选择;MCoT-MVS 直接在 CIR 任务中用 CoT 做意图分解——两篇互补
  • vs CIR-LVLM: CIR-LVLM 微调 VLM 对齐特征,但将参考图作为整体处理;MCoT-MVS 显式做多级视觉选择更精细
  • 启发:CoT 意图分解可以迁移到其他需要"选择性融合"的多模态任务——如视觉对话中从历史图片中选择相关视觉信息

评分

  • 新颖性: ⭐⭐⭐⭐ CoT 推理驱动多级视觉选择的组合新颖,但各组件单独看不算新
  • 实验充分度: ⭐⭐⭐⭐ CIRR + FashionIQ 双基准 + 消融
  • 写作质量: ⭐⭐⭐⭐ 图示清晰,与现有方法的对比分析直观
  • 价值: ⭐⭐⭐⭐ 发表在 WWW'26,对 CIR 社区有方法论贡献