CIRCLES: Retrieving Counterfactuals Improves Visual In-Context Learning¶

日期: 2026-03-17
arXiv: 2603.16737
代码: GitHub
领域: 多模态/VLM
关键词: 视觉上下文学习, 反事实检索, 组合图像检索, 示例选择, 因果推理

一句话总结¶

提出 CIRCLES 框架，通过组合图像检索（CIR）主动构造反事实风格的示例集，替代传统基于相似度的被动检索，使 VLM 在视觉上下文学习中学习因果属性关系而非虚假关联，在细粒度分类和 VQA 上一致超越 RICES 等基线。

研究背景与动机¶

领域现状: VLM 通过上下文学习（ICL）在推理时用少量示例适应新任务，效果高度依赖示例选择策略。RICES 等方法基于嵌入空间最近邻检索示例。
现有痛点: 基于相似度的检索倾向于选择相关但非因果的示例——这些示例可能共享无关的混淆属性，放大虚假关联。比如检索"像这只鸟的图片"会返回一堆视觉相似但品种不同的鸟，模型学到的是表面相关性而非决定性属性。
核心矛盾: 模型需要知道"改变哪个属性会改变答案"（因果），但相似度检索只能给"和查询长什么样"（相关）的示例。
切入角度: 反事实推理——如果这只鸟的喉部颜色变了，答案会变吗？通过检索这样的"如果...会怎样"示例，让模型隐式学习属性与结果的因果关系。
核心 idea: 用 VLM 识别查询图像的关键属性，生成反事实描述（改变一个属性），然后用组合图像检索找到匹配反事实描述的真实图像作为示例——与标准相似度检索的示例组合，构成因果+相关的完整上下文。

方法详解¶

整体框架¶

CIRCLES 包含三个组件： 1. 因果理解分支：属性引导的组合图像检索（CIR），获取反事实示例 \(\mathcal{R}_{\text{causal}}\) 2. 相关理解分支：标准图像相似度检索，获取相关示例 \(\mathcal{R}_{\text{corr}}\) 3. 联合推理：将两组示例合并作为 ICL 上下文送入 VLM

关键设计¶

关键属性识别:
- 做什么：从查询图像中提取决定答案的关键属性-值对
- 核心思路：提示 VLM \(\Phi\) 分析查询图像 \(I_q\) 和问题 \(Q_q\)，输出属性集 \(\mathcal{A} = \{a_1, \ldots, a_m\}\) 及对应值 \(\mathbf{v} = (v_1, \ldots, v_m)\)
- 示例：对鸟类识别，提取"喉部颜色=灰色"、"翼斑=白色条纹"等
反事实示例检索（核心）:
- 做什么：对每个属性进行"反事实干预"，找到只改变该属性的真实图像
- 核心思路：对每个属性 \(a_i\)，采样一个替代值 \(v_i'\)，让 VLM 生成反事实描述 \(c^{\text{do}(a_i=v_i')}\)（"如果喉部颜色变成黄色"），然后用 CLIP 计算候选图像与反事实描述的相似度 \(s_j^{\text{img}}\) + 问题相似度 \(s_j^{\text{txt}}\)，综合排序选 top-k
- 设计动机：直接改变真实图像的属性在自然场景中不可行，CIR 通过文本描述+图像检索近似实现反事实干预。双重打分（视觉忠实度+语义相关性）避免检索到视觉匹配但语义偏离的结果
因果+相关联合上下文:
- 做什么：将反事实示例和标准相似度示例合并
- 配置：默认 32 张示例 = 16 反事实 + 16 相似度
- 设计动机：单独的因果示例缺少正例锚点，单独的相关示例缺少对比信号——两者互补

CIR 实现¶

采用 OSrCIR（训练免费的组合图像检索），直接基于查询图像和修改文本合成新描述，比 CIReVL 的"先描述再编辑"方式更精细（准确率高 5.4-5.6%）。

实验关键数据¶

主实验（4 数据集 × 4 模型）¶

模型	方法	CUB (Acc)	Flowers (Acc)	OK-VQA (EM)	VizWiz (EM)	平均 EM
Gemma3-4B	RICES	65.40	86.70	26.65	56.08	58.71
Gemma3-4B	CIRCLES	71.97	93.32	31.27	57.61	63.54
Qwen2.5VL-3B	RICES	72.26	93.06	42.57	70.80	69.67
Qwen2.5VL-3B	CIRCLES	74.89	94.70	43.24	72.93	71.44
Qwen2.5VL-7B	RICES	82.15	98.83	43.66	73.79	74.61
Qwen2.5VL-7B	CIRCLES	82.17	98.99	43.54	77.63	75.58

CIRCLES 在所有模型-数据集组合上一致领先。小模型提升最大（Gemma3-4B 平均 +4.83 EM）。

信息稀缺实验¶

训练集移除比例	CIRCLES vs RICES 相对提升 (Gemma3-4B)
0%	+10.05%
25%	+11.50%
50%	+13.95%
75%	+16.28%

数据越少，CIRCLES 优势越大——反事实示例有效弥补了训练集覆盖不足。

消融实验¶

配置	CUB Acc (Gemma3-4B)
CIRCLES (OSrCIR)	71.97
CIRCLES (CIReVL)	68.17
RICES only	65.40
CIR only (无标准检索)	~68
无问题相似度约束	OK-VQA 降 3.5 EM

关键发现¶

CIR 质量直接影响效果：OSrCIR >> CIReVL (+5.4%)
因果+相关互补：两者缺一不可
小模型受益最大：内部知识有限时，反事实示例提供关键上下文
细粒度分类提升最显著（CUB +10%），VQA 提升较温和（+1-5%）

亮点与洞察¶

将因果推理引入 ICL 示例选择：不改模型，不改训练，只改"示例怎么挑"——即插即用的推理时增强。
CIR 作为反事实干预的近似：巧妙利用现有的组合图像检索技术来近似因果干预，无需真正的反事实数据生成。
小模型的"外部知识补偿"：CIRCLES 对小模型提升最大，说明反事实示例本质上是在用检索来弥补模型内部知识的不足——这一洞察可以推广到其他场景。

局限性 / 可改进方向¶

属性识别依赖 VLM 质量：关键属性由 VLM 自己提取，如果 VLM 识别不出关键属性，整个框架就无法工作
计算开销：每个查询需要 m 次 VLM 调用（生成反事实描述）+ m 次检索，比 RICES 慢很多
假设属性可分解：假设可以独立改变单个属性而不影响其他属性，这在很多实际场景中不成立（如改变物体颜色可能影响形状感知）
只验证了分类和 VQA：在更复杂的推理任务（如空间推理、时序推理）上效果未知

评分¶

新颖性: ⭐⭐⭐⭐ 将反事实推理引入 ICL 示例选择是新颖的，但 CIR 本身不是新技术
实验充分度: ⭐⭐⭐⭐ 4 数据集 4 模型 + 信息稀缺实验 + CIR 方法消融，较充分
写作质量: ⭐⭐⭐⭐ 动机清晰，方法图示直观
价值: ⭐⭐⭐⭐ 即插即用的推理时增强，对小模型实用性强