Instance-Level Composed Image Retrieval¶

会议: NeurIPS 2025
arXiv: 2510.25387
代码: GitHub | 项目页
领域: 图像检索/多模态
关键词: 组合图像检索, 实例级检索, VLM, 训练免费, 特征融合

一句话总结¶

提出实例级组合图像检索（i-CIR）基准和训练免费方法BASIC，通过独立估计图像和文本查询的相似度并进行乘法融合，在无需训练的情况下在i-CIR和现有CIR数据集上均达到SOTA。

研究背景与动机¶

组合图像检索(CIR)¶

组合图像检索是图像检索领域的热门方向：给定一张参考图像和一段文本修改描述（如"换成红色"），检索满足两个条件的目标图像。

现有CIR研究面临两个核心瓶颈：

数据质量不足：现有CIR数据集多为语义级（如FashionIQ、CIRR），检索目标是同类别但不同实例的图像——这与真实需求（找到同一个物体在不同条件下的图像）不同

训练数据稀缺：高质量的CIR训练样本难以大规模获取，限制了有监督方法的性能

实例级 vs 语义级¶

维度	语义级CIR	实例级CIR (i-CIR)
目标	同类别的其他图像	同一个特定物体
示例	"类似的红色连衣裙"	"同一件红色连衣裙在户外"
难度	类别内区分	实例级区分+条件匹配
应用	购物推荐	地标识别、物品追踪

实例级定义更贴近实际需求，但也更具挑战性。

方法详解¶

整体框架¶

本文贡献两部分： 1. i-CIR数据集：首个实例级CIR评测基准 2. BASIC方法：训练免费的CIR方法，利用预训练VLM的冻结特征

关键设计¶

1. i-CIR数据集构建

数据集的精心设计是本文的重要贡献：

202个物体实例：涵盖地标建筑、消费品、虚构角色、科技设备等多样类别
1,883个组合查询：每个查询由实例图像+文本修改组成（触及外观、环境、属性、视角等维度的变化）
750K数据库图像：包括正样本和精心筛选的困难负样本
困难负样本设计：三种类型——
- 视觉困难负样本：视觉相似但不是同一实例
- 文本困难负样本：文本语义匹配但图像实例不同
- 组合困难负样本：接近满足两个条件但实际不满足
紧凑但困难：虽然数据库仅750K，但通过困难负样本使其难度相当于在40M干扰图中检索

2. BASIC方法

BASIC（Baseline Approach for Surprisingly strong Composition）是一种训练免费方法，核心思路是分别处理图像和文本查询，然后进行融合：

步骤一：特征标准化（Feature Standardization） - 使用LAION-1M数据集预计算的均值对VLM特征进行中心化 - 消除全局偏置，使特征更具判别性

步骤二：对比PCA投影（Contrastive PCA Projection） - 使用正语料库（物体描述）和负语料库（风格描述）构建对比特征空间 - 通过PCA投影将图像特征投射到"物体"子空间，抑制背景和风格信息 - 公式：\(\mathbf{f}' = \text{PCA}_{C^+, C^-}(\mathbf{f}, \alpha)\)，其中 \(\alpha\) 控制负语料库权重

步骤三：查询扩展（Query Expansion） - 用参考图像检索top-k最相似的数据库图像 - 将这些图像的特征平均后作为扩展查询，增强图像查询的鲁棒性

步骤四：查询文本上下文化（Query Conditioning） - 将短文本修改补全为类似CLIP训练时的caption格式 - 添加语料库中的物体名称作为上下文，稳定文本表示

步骤五：Harris角点融合（Harris Corner Fusion） - 独立计算图像相似度 \(s_I\) 和文本相似度 \(s_T\) - 使用归一化min-based缩放，再通过Harris角点检测启发的惩罚项融合：

\[s = s_I \cdot s_T - \lambda \cdot (s_I - s_T)^2\]

逻辑：奖励同时满足两个查询的候选（AND逻辑），惩罚仅在单一模态上得分高的候选

损失函数 / 训练策略¶

无需训练：BASIC完全基于冻结的CLIP/SigLIP特征，所有操作都是查询时在线计算
无可学习参数，无需反向传播
支持CLIP ViT-L/14和SigLIP ViT-L-16作为backbone

实验关键数据¶

主实验：i-CIR基准¶

各方法在i-CIR上的mAP(%)对比：

方法	类型	Legacy宏mAP	Refined宏mAP	平均
Text	单模态	0.74	1.09	0.92
Image	单模态	3.84	6.32	5.08
Text + Image（加法）	基线	6.21	9.30	7.76
Text × Image（乘法）	基线	7.83	9.79	8.81
CIReVL	Training-free	18.11	17.80	17.96
FREEDOM	Trained	29.91	26.10	28.01
CoVR	Trained	11.52	24.93	18.23
BASIC	Training-free	32.13	31.65	31.89

BASIC超越了所有方法，包括需要训练的FREEDOM，同时是完全训练免费的。

现有语义级CIR数据集的对比¶

BASIC在传统CIR数据集上同样表现优异：

方法	类型	FashionIQ (R@10)	CIRR (R@1)	GeneCIS
Pic2Word	ZS	26.2	23.9	—
Searle	ZS	24.2	24.2	—
CIReVL	ZS	25.0	24.6	—
MagicLens	Trained	29.1	28.3	—
BASIC	ZS	31.8	29.7	SOTA

BASIC在训练免费设定下超越了有监督方法。

消融实验¶

各组件的贡献（i-CIR宏mAP%）：

配置	CLIP mAP	SigLIP mAP
朴素乘法融合	7.83	9.86
+ 特征标准化	14.2	15.8
+ 对比PCA投影	22.5	24.1
+ 查询扩展	28.7	30.2
+ 文本上下文化	30.1	31.3
+ Harris融合 (Full BASIC)	32.1	31.6

每个组件都带来稳定提升，其中对比PCA投影和查询扩展贡献最大。

融合权重 \(\lambda\) 的影响：

\(\lambda\)	i-CIR mAP	说明
0.0	28.3	纯乘法融合
0.05	30.5	轻微惩罚
0.1	32.1	最优
0.2	31.4	过度惩罚
0.5	29.1	惩罚过强

关键发现¶

实例级CIR真正需要组合：i-CIR上性能峰值出现在图文融合权重的中间值，证明两个模态都必须参与
训练免费方法可以超越有监督：BASIC的成功表明VLM的冻结特征蕴含了丰富的组合检索能力
特征空间的几何操作非常有效：标准化、投影、扩展这些简单的几何操作比复杂的学习方法更鲁棒
困难负样本是评测的关键：i-CIR通过困难负样本使750K数据库的难度等效于40M规模

亮点与洞察¶

问题定义的推进：从语义级到实例级CIR，更贴近真实检索需求
BASIC的优雅简洁：没有神经网络训练、没有复杂pipline，仅靠冻结特征的几何操作就达到SOTA
Harris角点融合的巧妙借鉴：将计算机视觉中经典的角点检测思想引入特征融合，奖励"两个方向都强"的候选
数据集设计的精心：困难负样本的三重设计（视觉/文本/组合）确保了评测的有效性
完全开源：数据集、代码、评测工具一应俱全

局限与展望¶

数据集规模有限：202个实例可能不足以覆盖所有检索场景
依赖VLM质量：BASIC的效果上限受限于底层VLM（CLIP/SigLIP）的表示能力
查询扩展增加开销：需要在推理时进行一次额外检索，增加延迟
PCA的语料库敏感性：正负语料库的选择可能影响不同领域的效果
未探索与训练方法的结合：BASIC的组件是否可以作为有监督CIR方法的初始化/增强？

评分¶

新颖性：⭐⭐⭐⭐（新数据集定义+优雅的方法设计）
技术深度：⭐⭐⭐⭐
实验充分度：⭐⭐⭐⭐⭐
实用性：⭐⭐⭐⭐⭐（完全开源+无需训练）
写作质量：⭐⭐⭐⭐⭐