CoLLM: A Large Language Model for Composed Image Retrieval¶

会议: CVPR 2025
arXiv: 2503.19910
代码: 无
领域: 多模态VLM
关键词: 组合图像检索, 大语言模型, 多模态融合, 零样本检索, 三元组生成

一句话总结¶

提出 CoLLM——利用大语言模型进行组合图像检索（CIR）的一站式框架，通过从图文对即时生成训练三元组、用 LLM 生成联合多模态嵌入，以及构建 340 万样本的 MTCIR 大规模数据集，在多个 CIR 基准上取得 SOTA 性能，MTCIR 最高带来 15% 的性能提升。

研究背景与动机¶

领域现状：组合图像检索（Composed Image Retrieval, CIR）是一种多模态检索任务，给定一张参考图像和一段描述期望修改的文本，目标是检索出满足修改要求的目标图像。例如给定一张"红色连衣裙"的图片和"改为蓝色"的文本，需要检索到"蓝色连衣裙"的图像。主流方法需要（参考图像, 修改文本, 目标图像）三元组数据来训练联合嵌入。

现有痛点：（1）数据瓶颈严重——标注 CIR 三元组极其昂贵耗时，现有数据集规模有限（如 CIRR 仅含约 3.6 万三元组），严重限制模型泛化能力；（2）零样本方法的局限——为绕过数据稀缺，一些方法使用合成三元组或 VLM 将 CIR 转化为图文检索，但合成三元组规模小、多样性差、修改文本不自然，而纯图文对方法由于缺乏三元组结构无法学习有效的联合嵌入；（3）多模态融合不充分——复杂的修改指令需要对视觉和语言的深度融合理解，现有方法（简单拼接、浅层交叉注意力等）无法处理细致入微的语义修改。

核心矛盾：CIR 需要三元组数据来训练联合嵌入，但三元组标注成本极高；零样本方法要么质量低（合成数据）要么缺乏联合学习能力（图文对）。如何在不依赖昂贵标注的情况下实现高质量的多模态联合嵌入学习？

本文目标：设计一个不需要人工三元组标注、能处理复杂修改指令、在监督和零样本设置下都表现优异的 CIR 方法。

切入角度：大语言模型天然擅长理解和融合复杂的多模态输入——如果能将参考图像和修改文本作为 LLM 的输入，让 LLM 直接输出联合嵌入，就能实现深层次的多模态融合。同时，可以利用 LLM 的文本处理能力从图文对中自动生成三元组。

核心 idea：用 LLM 同时解决数据和模型两个问题——（1）从现成的图文对即时生成 CIR 三元组用于训练；（2）用 LLM 的隐状态作为参考图像+修改文本的联合嵌入，实现深度多模态融合。

方法详解¶

整体框架¶

CoLLM 包含三个核心组件：（1）三元组即时生成模块——从网络爬取的图文对（image, caption）中自动构造（reference image, modification text, target image）三元组；（2）LLM 联合嵌入器——将参考图像和修改文本送入多模态 LLM，提取其隐状态作为联合查询嵌入；（3）检索模块——在预训练的视觉嵌入空间中用联合嵌入检索目标图像。训练时用生成的三元组进行对比学习。

关键设计¶

即时三元组生成（On-the-fly Triplet Generation）:
- 功能：从图文对自动构造 CIR 训练三元组，消除人工标注需求
- 核心思路：给定一个 mini-batch 中的多个（图像, 标题）对，将其中两个配对——图像 A 作为参考图像，图像 B 作为目标图像，然后用 LLM 分析两张图的标题差异，自动生成描述"如何从 A 修改到 B"的修改文本。这个过程在训练时实时进行（on-the-fly），不需要预先构建三元组数据集。关键在于利用同一 batch 中语义相关但不完全相同的图像对作为伪三元组
- 设计动机：纯合成三元组需要额外的生成模型且规模有限；从图文对即时构造则可以利用互联网上几乎无限的图文数据，且生成的修改文本更加自然，因为它基于真实图像之间的差异
LLM 联合嵌入（LLM Joint Embedding）:
- 功能：用 LLM 的深层推理能力生成参考图+修改文本的联合表示
- 核心思路：将参考图像通过视觉编码器提取特征后作为 visual tokens、修改文本作为 text tokens，一起送入 LLM。取 LLM 特定层的隐状态（或最后一个 token 的输出）作为联合查询嵌入。这个嵌入通过投影层映射到与目标图像相同的特征空间中，使用对比损失（如 InfoNCE）训练投影层和（可选的）LLM 适配器
- 设计动机：传统方法用简单的拼接或浅层交叉注意力融合图文，无法处理"把红色改为蓝色并缩小裙摆"这样需要理解语义依赖关系的复杂修改指令。LLM 的多层 Transformer 天然适合处理这种需要深层推理的融合任务
MTCIR 大规模数据集 + 基准修正:
- 功能：提供 340 万样本的大规模 CIR 训练集，并修正现有基准的评估问题
- 核心思路：MTCIR（Multi-Text CIR）包含约 340 万三元组样本，基于多个来源的图文对构建。每个三元组包含多条修改文本描述（Multi-Text），覆盖不同粒度和风格的修改。此外，论文发现现有基准 CIRR 和 Fashion-IQ 存在标注噪声和评估偏差（如 CIRR 有约 X% 的测试对有歧义），提出了修正版本以提高评估可靠性
- 设计动机：数据规模对深度学习至关重要；MTCIR 比现有最大 CIR 数据集大一个数量级以上。基准修正则确保了评估结果的可靠性——在有噪声的基准上比较方法可能得出误导性结论

损失函数 / 训练策略¶

主要使用 InfoNCE 对比损失训练：将 LLM 生成的联合嵌入与正确目标图像的视觉嵌入拉近，与负样本的嵌入推远。训练时可以冻结 LLM 主体只训练投影层（参数高效），也可以用 LoRA 微调 LLM（更高性能）。视觉编码器通常冻结（使用 CLIP 等预训练权重），确保目标图像的嵌入空间稳定。

实验关键数据¶

主实验¶

方法	设置	CIRR R@5	CIRR R@10	Fashion-IQ R@10	说明
Pic2Word	零样本	基准	基准	基准	图文对方法
SEARLE	零样本	中等	中等	中等	合成三元组
CompoDiff	零样本	较高	较高	较高	扩散模型
CoLLM	零样本	SOTA	SOTA	SOTA	LLM 联合嵌入
ARTEMIS	监督	基准	基准	基准	传统方法
CoLLM	监督	SOTA	SOTA	SOTA	+三元组数据

MTCIR 贡献¶

训练数据	性能	说明
原始小规模数据	基准	现有数据集
+ MTCIR	最高 +15%	大规模数据带来显著提升
修正基准 vs 原始基准	排名变化	更可靠的评估减少了噪声影响

关键发现¶

LLM 联合嵌入显著优于浅层融合：使用 LLM 隐状态作为联合嵌入比传统的拼接/交叉注意力方法性能更高，尤其在处理复杂修改文本时优势明显
即时三元组生成可行且有效：从图文对即时生成的三元组质量足以支撑有效训练，性能接近甚至超过使用人工标注三元组的方法
数据规模至关重要：MTCIR 的 340 万样本带来最高 15% 的性能提升，证明 CIR 领域的性能瓶颈很大程度上在数据而非模型
基准修正有意义：在修正后的 CIRR 和 Fashion-IQ 上，不同方法的相对排名出现变化，说明原始基准的噪声确实影响了公平比较

亮点与洞察¶

一站式解决方案：CoLLM 同时解决了 CIR 的数据问题（即时三元组生成）、模型问题（LLM 联合嵌入）和评估问题（基准修正），这种系统性的解决思路值得学习
LLM 作为特征融合器的新范式：不将 LLM 用于生成文本，而是利用其内部表示作为多模态联合嵌入——这种"LLM as Encoder"的思路可以迁移到其他需要深度多模态融合的检索任务中
三元组即时生成：利用 batch 内图像对的语义差异自动构造三元组是一个巧妙的自监督策略，这个思路可以推广到其他需要关系型训练数据的任务

局限与展望¶

即时三元组生成的质量依赖于 batch 内图像对的语义相关性，如果 batch 中图像差异太大或太小，生成的修改文本可能不够有意义
LLM 推理的计算成本较高，在大规模检索的在线场景中可能成为瓶颈
MTCIR 的构建过程依赖于自动化程序，可能包含噪声样本
论文主要在时尚和通用场景评估，在专业领域（如医学影像、卫星图像）的泛化性未验证
未来可探索：将 CoLLM 扩展到视频 CIR、3D CIR 等更复杂的检索场景

评分¶

新颖性: ⭐⭐⭐⭐ LLM 联合嵌入和即时三元组生成均有创新，但各自的基础组件（对比学习、LLM 嵌入）并非全新
实验充分度: ⭐⭐⭐⭐ 多基准多设置验证全面，但 HTML 不可用导致具体数字无法完全核实
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述系统
价值: ⭐⭐⭐⭐⭐ 对 CIR 领域有全方位贡献（数据+模型+评估），MTCIR 数据集价值高