跳转至

CIRCLES: Retrieving Counterfactuals Improves Visual In-Context Learning

日期: 2026-03-17
arXiv: 2603.16737
代码: GitHub
领域: 多模态/VLM
关键词: 视觉上下文学习, 反事实检索, 组合图像检索, 示例选择, 因果推理

一句话总结

提出 CIRCLES 框架,通过组合图像检索(CIR)主动构造反事实风格的示例集,替代传统基于相似度的被动检索,使 VLM 在视觉上下文学习中学习因果属性关系而非虚假关联,在细粒度分类和 VQA 上一致超越 RICES 等基线。

研究背景与动机

  1. 领域现状: VLM 通过上下文学习(ICL)在推理时用少量示例适应新任务,效果高度依赖示例选择策略。RICES 等方法基于嵌入空间最近邻检索示例。

  2. 现有痛点: 基于相似度的检索倾向于选择相关但非因果的示例——这些示例可能共享无关的混淆属性,放大虚假关联。比如检索"像这只鸟的图片"会返回一堆视觉相似但品种不同的鸟,模型学到的是表面相关性而非决定性属性。

  3. 核心矛盾: 模型需要知道"改变哪个属性会改变答案"(因果),但相似度检索只能给"和查询长什么样"(相关)的示例。

  4. 切入角度: 反事实推理——如果这只鸟的喉部颜色变了,答案会变吗?通过检索这样的"如果...会怎样"示例,让模型隐式学习属性与结果的因果关系。

  5. 核心 idea: 用 VLM 识别查询图像的关键属性,生成反事实描述(改变一个属性),然后用组合图像检索找到匹配反事实描述的真实图像作为示例——与标准相似度检索的示例组合,构成因果+相关的完整上下文。

方法详解

整体框架

CIRCLES 包含三个组件: 1. 因果理解分支:属性引导的组合图像检索(CIR),获取反事实示例 \(\mathcal{R}_{\text{causal}}\) 2. 相关理解分支:标准图像相似度检索,获取相关示例 \(\mathcal{R}_{\text{corr}}\) 3. 联合推理:将两组示例合并作为 ICL 上下文送入 VLM

关键设计

  1. 关键属性识别:

    • 做什么:从查询图像中提取决定答案的关键属性-值对
    • 核心思路:提示 VLM \(\Phi\) 分析查询图像 \(I_q\) 和问题 \(Q_q\),输出属性集 \(\mathcal{A} = \{a_1, \ldots, a_m\}\) 及对应值 \(\mathbf{v} = (v_1, \ldots, v_m)\)
    • 示例:对鸟类识别,提取"喉部颜色=灰色"、"翼斑=白色条纹"等
  2. 反事实示例检索(核心):

    • 做什么:对每个属性进行"反事实干预",找到只改变该属性的真实图像
    • 核心思路:对每个属性 \(a_i\),采样一个替代值 \(v_i'\),让 VLM 生成反事实描述 \(c^{\text{do}(a_i=v_i')}\)("如果喉部颜色变成黄色"),然后用 CLIP 计算候选图像与反事实描述的相似度 \(s_j^{\text{img}}\) + 问题相似度 \(s_j^{\text{txt}}\),综合排序选 top-k
    • 设计动机:直接改变真实图像的属性在自然场景中不可行,CIR 通过文本描述+图像检索近似实现反事实干预。双重打分(视觉忠实度+语义相关性)避免检索到视觉匹配但语义偏离的结果
  3. 因果+相关联合上下文:

    • 做什么:将反事实示例和标准相似度示例合并
    • 配置:默认 32 张示例 = 16 反事实 + 16 相似度
    • 设计动机:单独的因果示例缺少正例锚点,单独的相关示例缺少对比信号——两者互补

CIR 实现

采用 OSrCIR(训练免费的组合图像检索),直接基于查询图像和修改文本合成新描述,比 CIReVL 的"先描述再编辑"方式更精细(准确率高 5.4-5.6%)。

实验关键数据

主实验(4 数据集 × 4 模型)

模型 方法 CUB (Acc) Flowers (Acc) OK-VQA (EM) VizWiz (EM) 平均 EM
Gemma3-4B RICES 65.40 86.70 26.65 56.08 58.71
Gemma3-4B CIRCLES 71.97 93.32 31.27 57.61 63.54
Qwen2.5VL-3B RICES 72.26 93.06 42.57 70.80 69.67
Qwen2.5VL-3B CIRCLES 74.89 94.70 43.24 72.93 71.44
Qwen2.5VL-7B RICES 82.15 98.83 43.66 73.79 74.61
Qwen2.5VL-7B CIRCLES 82.17 98.99 43.54 77.63 75.58

CIRCLES 在所有模型-数据集组合上一致领先。小模型提升最大(Gemma3-4B 平均 +4.83 EM)。

信息稀缺实验

训练集移除比例 CIRCLES vs RICES 相对提升 (Gemma3-4B)
0% +10.05%
25% +11.50%
50% +13.95%
75% +16.28%

数据越少,CIRCLES 优势越大——反事实示例有效弥补了训练集覆盖不足。

消融实验

配置 CUB Acc (Gemma3-4B)
CIRCLES (OSrCIR) 71.97
CIRCLES (CIReVL) 68.17
RICES only 65.40
CIR only (无标准检索) ~68
无问题相似度约束 OK-VQA 降 3.5 EM

关键发现

  • CIR 质量直接影响效果:OSrCIR >> CIReVL (+5.4%)
  • 因果+相关互补:两者缺一不可
  • 小模型受益最大:内部知识有限时,反事实示例提供关键上下文
  • 细粒度分类提升最显著(CUB +10%),VQA 提升较温和(+1-5%)

亮点与洞察

  • 将因果推理引入 ICL 示例选择:不改模型,不改训练,只改"示例怎么挑"——即插即用的推理时增强。
  • CIR 作为反事实干预的近似:巧妙利用现有的组合图像检索技术来近似因果干预,无需真正的反事实数据生成。
  • 小模型的"外部知识补偿":CIRCLES 对小模型提升最大,说明反事实示例本质上是在用检索来弥补模型内部知识的不足——这一洞察可以推广到其他场景。

局限性 / 可改进方向

  • 属性识别依赖 VLM 质量:关键属性由 VLM 自己提取,如果 VLM 识别不出关键属性,整个框架就无法工作
  • 计算开销:每个查询需要 m 次 VLM 调用(生成反事实描述)+ m 次检索,比 RICES 慢很多
  • 假设属性可分解:假设可以独立改变单个属性而不影响其他属性,这在很多实际场景中不成立(如改变物体颜色可能影响形状感知)
  • 只验证了分类和 VQA:在更复杂的推理任务(如空间推理、时序推理)上效果未知

相关工作与启发

  • vs RICES: RICES 只做相似度检索,CIRCLES 增加了反事实检索分支。两者互补(实验证明合并效果最好)
  • vs MUIER/MMICES: 这些方法在多模态相似度上做改进,但本质还是相关性检索。CIRCLES 从相关到因果的跨越更根本
  • 启发:反事实思维可以迁移到其他 ICL 场景——比如 few-shot 文本分类中,检索与正例只有关键特征不同的负例

评分

  • 新颖性: ⭐⭐⭐⭐ 将反事实推理引入 ICL 示例选择是新颖的,但 CIR 本身不是新技术
  • 实验充分度: ⭐⭐⭐⭐ 4 数据集 4 模型 + 信息稀缺实验 + CIR 方法消融,较充分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法图示直观
  • 价值: ⭐⭐⭐⭐ 即插即用的推理时增强,对小模型实用性强