Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval¶
会议: NeurIPS 2025
arXiv: 2505.15877
作者: Siting Li, Xiang Gao, Simon Shaolei Du
代码: 无
领域: 计算机视觉 / 图像检索
关键词: 属性聚焦检索, 可提示图像嵌入, CLIP, 多模态大模型, 文本到图像检索
一句话总结¶
提出可提示图像嵌入(Promptable Embeddings)方法,通过在检索时高亮目标视觉属性来提升属性聚焦的文本到图像检索性能,同时构建了COCO-Facet基准数据集。
研究背景与动机¶
在文本到图像(T2I)检索任务中,理想的检索器应该能根据查询关注特定的视觉属性(如颜色、材质、形状、动作等)。然而,现有方法存在明显缺陷:
CLIP类检索器的局限:由于效率和零样本能力被广泛采用,但其图像嵌入侧重于全局语义和主体对象,在处理属性聚焦查询时表现不佳且不均衡
MLLM类检索器的不足:即使是基于多模态大语言模型(MLLM)的更强检索器,尽管输出维度更大,在属性聚焦查询上仍然力不从心
根本问题:使用通用图像嵌入进行属性聚焦检索本身就是次优的——一个固定的嵌入难以同时对所有可能的属性查询最优
核心假设:如果能根据查询动态调整图像嵌入,使其"高亮"相关属性,就能显著提升检索性能。
方法详解¶
整体框架¶
方法分为三个核心组件:
- COCO-Facet基准构建:基于COCO数据集构建的属性聚焦检索评测基准
- 可提示嵌入生成管线:利用MLLM生成属性敏感的图像嵌入
- 加速策略:针对实际部署需求的两种加速方案
关键设计¶
1. COCO-Facet基准数据集¶
基于COCO数据集构建,包含9,112个关于多样视觉属性的查询。属性类别覆盖: - 颜色和外观 - 材质和纹理 - 形状和尺寸 - 空间关系 - 动作和状态 - 数量和计数
每个查询针对特定的视觉属性,要求检索器关注图像中的特定细节而非全局语义。
2. 可提示图像嵌入¶
核心思路:不使用通用的图像嵌入,而是根据查询的属性类型,生成针对性的"提示",引导MLLM检索器输出强调特定属性的嵌入。
具体流程: 1. 给定查询文本,分析其关注的属性类型 2. 构造属性提示(prompt),指导图像编码器关注该属性 3. 将提示注入MLLM检索器,生成可提示嵌入 4. 使用该嵌入与查询嵌入计算相似度进行检索
该管线具有良好的泛化性,可跨越: - 不同查询类型 - 不同图像池 - 不同基础检索器架构
3. 加速策略¶
为增强实际可用性,提供两种加速方案:
策略一:预处理可提示嵌入 - 适用场景:提示是预定义的(有限种属性类型) - 方法:离线预计算每种属性提示下的所有图像嵌入 - 效果:Recall@5提升15% - 代价:需要存储多份嵌入,存储量与属性种类数成正比
策略二:线性近似 - 适用场景:提示仅在推理时可用 - 方法:学习一个线性变换,将通用嵌入近似转换为可提示嵌入 - 效果:Recall@5提升8% - 优势:无需重新运行MLLM,计算开销极低
损失函数 / 训练策略¶
线性近似模块的训练: - 使用已有的可提示嵌入作为目标,训练线性映射 - 损失函数为嵌入空间中的MSE或余弦相似度损失 - 泛化性好,可在少量样本上训练
实验关键数据¶
主实验¶
现有检索器在COCO-Facet上的评测¶
| 检索器类型 | 模型 | Recall@5 | 属性均衡性 | 维度 |
|---|---|---|---|---|
| CLIP类 | CLIP ViT-B/32 | 基线 | 差,不均衡 | 512 |
| CLIP类 | CLIP ViT-L/14 | 略高于基线 | 差,不均衡 | 768 |
| MLLM类 | 多模态LLM检索器 | 相对更好 | 仍然不均衡 | 更高维度 |
| 本文方法 | 预处理可提示嵌入 | 基线+15% | 显著改善 | 同MLLM |
| 本文方法 | 线性近似 | 基线+8% | 显著改善 | 同MLLM |
关键发现:CLIP类模型在不同属性类型上的性能差异巨大——对"主体对象"类查询表现较好,对"颜色""纹理""空间关系"等查询表现差。
不同属性类型的性能分解¶
| 属性类型 | CLIP基线 | 可提示嵌入 | 改善幅度 |
|---|---|---|---|
| 主体/对象 | 较高 | 略有提升 | 小 |
| 颜色/外观 | 较低 | 显著提升 | 大 |
| 材质/纹理 | 较低 | 显著提升 | 大 |
| 空间关系 | 最低 | 明显提升 | 中等 |
| 动作/状态 | 中等 | 明显提升 | 中等 |
消融实验¶
加速策略的权衡分析¶
| 策略 | 推理速度 | Recall@5提升 | 存储开销 | 适用场景 |
|---|---|---|---|---|
| 完整可提示嵌入 | 最慢 | 最高 | 低 | 研究/原型 |
| 预处理嵌入 | 快 | +15% | 高(N份) | 属性预定义 |
| 线性近似 | 最快 | +8% | 低 | 在线推理 |
跨架构泛化性验证¶
可提示嵌入方法在不同基础检索器架构上均有效,验证了方法的通用性。
关键发现¶
- 通用图像嵌入确实在属性聚焦检索上存在系统性缺陷
- 即使更强的MLLM检索器也受限于使用单一通用嵌入
- 可提示嵌入能有效弥补这一不足,且跨模型泛化
- 存在性能与效率的合理权衡方案
亮点与洞察¶
- 问题定义精准:作者准确识别了属性聚焦检索的核心瓶颈——通用嵌入对细粒度属性的表示不足
- 高质量评测基准:COCO-Facet提供了9,112个查询,覆盖多种属性类型,对社区有长期价值
- 方法简洁有效:不需要重新训练模型,仅通过提示工程就能显著提升性能
- 实际可用的加速方案:预处理和线性近似策略使方法具备实际部署价值
- 跨架构泛化:方法不绑定特定模型,具有良好的通用性
局限与展望¶
- 依赖MLLM:可提示嵌入需要MLLM级别的模型,计算成本高于纯CLIP
- 属性类型的预定义:预处理加速需要预定义属性集合,难以处理完全开放的查询
- 线性近似的性能差距:与完整可提示嵌入仍有7%的差距,可探索更强的近似方法
- 单一数据集评测:主要基于COCO-Facet,需在更多数据集上验证
- 复合属性查询:对同时查询多个属性(如"红色的、金属质感的")的处理尚未充分探讨
- 27页论文含6个图,实验细节丰富但也说明方法涉及众多设计选择
相关工作与启发¶
- CLIP (Radford et al., 2021):文本-图像对齐范式的基础,本文揭示了其属性表示的局限
- MLLM检索器:展示了即使更大模型也面临同样的属性表示问题
- 提示工程:本文在检索任务中创新性地应用了提示的概念
- 细粒度检索:与细粒度图像检索领域的工作互补,但关注更广泛的属性类型
评分¶
- 新颖性: ★★★★☆ — 可提示嵌入的概念新颖,COCO-Facet基准有价值
- 理论深度: ★★★☆☆ — 主要是实证研究,理论分析较少
- 实验充分度: ★★★★☆ — 27页含6图,实验全面但仅在COCO上验证
- 实用价值: ★★★★☆ — 加速策略使方法具备实际部署价值
- 写作质量: ★★★★☆ — 问题动机清晰,方法描述完整
相关论文¶
- [NeurIPS 2025] Can Knowledge-Graph-based Retrieval Augmented Generation Really Retrieve What You Need?
- [NeurIPS 2025] Instance-Level Composed Image Retrieval
- [NeurIPS 2025] On the Emergence of Linear Analogies in Word Embeddings
- [NeurIPS 2025] GenIR: Generative Visual Feedback for Mental Image Retrieval
- [NeurIPS 2025] What We Don't C: Manifold Disentanglement for Structured Discovery