CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space¶

会议: CVPR 2026
arXiv: 2604.11539
代码: 无
领域: 多模态VLM
关键词: 条件图像检索, 视觉语言模型, 相似度调制, 免训练, 超球面几何

一句话总结¶

CLAY 提出免训练的条件视觉相似度计算方法，通过在 VLM 嵌入空间中构建文本条件子空间来调制相似度，无需重新计算数据库特征即可适应不同检索条件，并支持多条件检索。

领域现状：图像检索系统通常依赖固定的单一相似度度量，但人类感知相似性是自适应的——看同一张图可能关注物种、颜色、动作等不同方面。

现有痛点：(1) 训练型方法需要对每种条件训练特定模型，且条件变化时需重算所有数据库特征；(2) 现有方法仅支持单条件检索，无法同时指定多个关注维度；(3) 训练数据需要每种条件的配对图像。

核心矛盾：条件变化时重新计算数据库嵌入计算开销大，而不同条件需要不同的相似度计算方式。

核心 idea：将条件化过程从视觉特征提取中分离——固定视觉嵌入不变，在相似度计算空间中根据文本条件动态调制。

预训练 VLM 提取固定视觉特征 → 给定文本条件生成条件投影矩阵 → 将查询和数据库的视觉特征投影到条件子空间 → 在子空间中计算余弦相似度 → 返回排序结果。

流形感知文本子空间构建:
- 功能：根据文本条件构建相似度调制空间
- 核心思路：用 LLM 扩展条件文本为多个描述性短语，通过 VLM 文本编码器获取嵌入集合，PCA 提取主方向构建正交子空间，生成条件投影矩阵 \(P_c\)。考虑 VLM 嵌入空间的超球面几何，投影后重新归一化
- 设计动机：简单的一个文本嵌入不足以定义一个有意义的子空间，需要多个相关描述来跨越条件相关的语义方向
对称条件相似度:
- 功能：用同一投影矩阵同时变换查询和数据库特征
- 核心思路：\(\text{csim}(I_q, I_d | c) = \cos(P_c \cdot f(I_q), P_c \cdot f(I_d))\)，查询和数据库特征对称处理。投影矩阵 \(P_c\) 可预计算并缓存，条件变化只需切换矩阵
- 设计动机：非对称方法（只变换查询）会保留数据库特征中的条件无关信息干扰检索结果；对称方法确保双方都只保留条件相关信息
多条件检索扩展:
- 功能：支持同时指定多个关注维度
- 核心思路：对多个条件的投影矩阵取并集子空间，构建联合投影矩阵
- 设计动机：现实场景中用户可能想同时按"物种"和"颜色"检索，现有方法不支持

完全免训练，仅利用预训练 VLM 的特征空间。

数据集	指标	CLAY	GeneCIS (训练型)	FocalLens
GeneCIS 基准	Recall@1	竞争性/优	基线	基线
CLAY-EVAL	MR@K	SOTA	不支持多条件	不支持