CIRCLES: Retrieving Counterfactuals Improves Visual In-Context Learning¶
日期: 2026-03-17
arXiv: 2603.16737
代码: GitHub
领域: 多模态/VLM
关键词: 视觉上下文学习, 反事实检索, 组合图像检索, 示例选择, 因果推理
一句话总结¶
提出 CIRCLES 框架,通过组合图像检索(CIR)主动构造反事实风格的示例集,替代传统基于相似度的被动检索,使 VLM 在视觉上下文学习中学习因果属性关系而非虚假关联,在细粒度分类和 VQA 上一致超越 RICES 等基线。
研究背景与动机¶
-
领域现状: VLM 通过上下文学习(ICL)在推理时用少量示例适应新任务,效果高度依赖示例选择策略。RICES 等方法基于嵌入空间最近邻检索示例。
-
现有痛点: 基于相似度的检索倾向于选择相关但非因果的示例——这些示例可能共享无关的混淆属性,放大虚假关联。比如检索"像这只鸟的图片"会返回一堆视觉相似但品种不同的鸟,模型学到的是表面相关性而非决定性属性。
-
核心矛盾: 模型需要知道"改变哪个属性会改变答案"(因果),但相似度检索只能给"和查询长什么样"(相关)的示例。
-
切入角度: 反事实推理——如果这只鸟的喉部颜色变了,答案会变吗?通过检索这样的"如果...会怎样"示例,让模型隐式学习属性与结果的因果关系。
-
核心 idea: 用 VLM 识别查询图像的关键属性,生成反事实描述(改变一个属性),然后用组合图像检索找到匹配反事实描述的真实图像作为示例——与标准相似度检索的示例组合,构成因果+相关的完整上下文。
方法详解¶
整体框架¶
CIRCLES 包含三个组件: 1. 因果理解分支:属性引导的组合图像检索(CIR),获取反事实示例 \(\mathcal{R}_{\text{causal}}\) 2. 相关理解分支:标准图像相似度检索,获取相关示例 \(\mathcal{R}_{\text{corr}}\) 3. 联合推理:将两组示例合并作为 ICL 上下文送入 VLM
关键设计¶
-
关键属性识别:
- 做什么:从查询图像中提取决定答案的关键属性-值对
- 核心思路:提示 VLM \(\Phi\) 分析查询图像 \(I_q\) 和问题 \(Q_q\),输出属性集 \(\mathcal{A} = \{a_1, \ldots, a_m\}\) 及对应值 \(\mathbf{v} = (v_1, \ldots, v_m)\)
- 示例:对鸟类识别,提取"喉部颜色=灰色"、"翼斑=白色条纹"等
-
反事实示例检索(核心):
- 做什么:对每个属性进行"反事实干预",找到只改变该属性的真实图像
- 核心思路:对每个属性 \(a_i\),采样一个替代值 \(v_i'\),让 VLM 生成反事实描述 \(c^{\text{do}(a_i=v_i')}\)("如果喉部颜色变成黄色"),然后用 CLIP 计算候选图像与反事实描述的相似度 \(s_j^{\text{img}}\) + 问题相似度 \(s_j^{\text{txt}}\),综合排序选 top-k
- 设计动机:直接改变真实图像的属性在自然场景中不可行,CIR 通过文本描述+图像检索近似实现反事实干预。双重打分(视觉忠实度+语义相关性)避免检索到视觉匹配但语义偏离的结果
-
因果+相关联合上下文:
- 做什么:将反事实示例和标准相似度示例合并
- 配置:默认 32 张示例 = 16 反事实 + 16 相似度
- 设计动机:单独的因果示例缺少正例锚点,单独的相关示例缺少对比信号——两者互补
CIR 实现¶
采用 OSrCIR(训练免费的组合图像检索),直接基于查询图像和修改文本合成新描述,比 CIReVL 的"先描述再编辑"方式更精细(准确率高 5.4-5.6%)。
实验关键数据¶
主实验(4 数据集 × 4 模型)¶
| 模型 | 方法 | CUB (Acc) | Flowers (Acc) | OK-VQA (EM) | VizWiz (EM) | 平均 EM |
|---|---|---|---|---|---|---|
| Gemma3-4B | RICES | 65.40 | 86.70 | 26.65 | 56.08 | 58.71 |
| Gemma3-4B | CIRCLES | 71.97 | 93.32 | 31.27 | 57.61 | 63.54 |
| Qwen2.5VL-3B | RICES | 72.26 | 93.06 | 42.57 | 70.80 | 69.67 |
| Qwen2.5VL-3B | CIRCLES | 74.89 | 94.70 | 43.24 | 72.93 | 71.44 |
| Qwen2.5VL-7B | RICES | 82.15 | 98.83 | 43.66 | 73.79 | 74.61 |
| Qwen2.5VL-7B | CIRCLES | 82.17 | 98.99 | 43.54 | 77.63 | 75.58 |
CIRCLES 在所有模型-数据集组合上一致领先。小模型提升最大(Gemma3-4B 平均 +4.83 EM)。
信息稀缺实验¶
| 训练集移除比例 | CIRCLES vs RICES 相对提升 (Gemma3-4B) |
|---|---|
| 0% | +10.05% |
| 25% | +11.50% |
| 50% | +13.95% |
| 75% | +16.28% |
数据越少,CIRCLES 优势越大——反事实示例有效弥补了训练集覆盖不足。
消融实验¶
| 配置 | CUB Acc (Gemma3-4B) |
|---|---|
| CIRCLES (OSrCIR) | 71.97 |
| CIRCLES (CIReVL) | 68.17 |
| RICES only | 65.40 |
| CIR only (无标准检索) | ~68 |
| 无问题相似度约束 | OK-VQA 降 3.5 EM |
关键发现¶
- CIR 质量直接影响效果:OSrCIR >> CIReVL (+5.4%)
- 因果+相关互补:两者缺一不可
- 小模型受益最大:内部知识有限时,反事实示例提供关键上下文
- 细粒度分类提升最显著(CUB +10%),VQA 提升较温和(+1-5%)
亮点与洞察¶
- 将因果推理引入 ICL 示例选择:不改模型,不改训练,只改"示例怎么挑"——即插即用的推理时增强。
- CIR 作为反事实干预的近似:巧妙利用现有的组合图像检索技术来近似因果干预,无需真正的反事实数据生成。
- 小模型的"外部知识补偿":CIRCLES 对小模型提升最大,说明反事实示例本质上是在用检索来弥补模型内部知识的不足——这一洞察可以推广到其他场景。
局限性 / 可改进方向¶
- 属性识别依赖 VLM 质量:关键属性由 VLM 自己提取,如果 VLM 识别不出关键属性,整个框架就无法工作
- 计算开销:每个查询需要 m 次 VLM 调用(生成反事实描述)+ m 次检索,比 RICES 慢很多
- 假设属性可分解:假设可以独立改变单个属性而不影响其他属性,这在很多实际场景中不成立(如改变物体颜色可能影响形状感知)
- 只验证了分类和 VQA:在更复杂的推理任务(如空间推理、时序推理)上效果未知
相关工作与启发¶
- vs RICES: RICES 只做相似度检索,CIRCLES 增加了反事实检索分支。两者互补(实验证明合并效果最好)
- vs MUIER/MMICES: 这些方法在多模态相似度上做改进,但本质还是相关性检索。CIRCLES 从相关到因果的跨越更根本
- 启发:反事实思维可以迁移到其他 ICL 场景——比如 few-shot 文本分类中,检索与正例只有关键特征不同的负例
评分¶
- 新颖性: ⭐⭐⭐⭐ 将反事实推理引入 ICL 示例选择是新颖的,但 CIR 本身不是新技术
- 实验充分度: ⭐⭐⭐⭐ 4 数据集 4 模型 + 信息稀缺实验 + CIR 方法消融,较充分
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法图示直观
- 价值: ⭐⭐⭐⭐ 即插即用的推理时增强,对小模型实用性强