MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval¶

会议: ACL 2025
arXiv: 2412.14475
代码: 将公开（数据集、模型、pipeline 全套公开）
领域: Multimodal VLM / 多模态检索
关键词: Multimodal Retrieval, Data Synthesis, Composed Image Retrieval, Contrastive Learning, instruction tuning, Hard Negatives

一句话总结¶

提出 MegaPairs 数据合成方法，利用异构 KNN 三元组从开放域图像语料中挖掘相关图像对，结合 VLM/LLM 生成检索指令，合成 2600 万多模态训练实例，训练的 MMRet 模型仅用 0.5M 数据即超越使用 36.7M 数据的 MagicLens（70× 数据效率），在 4 个 CIR 基准和 MMEB 36 个数据集上达到 SOTA。

研究背景与动机¶

领域现状: 多模态检索需求快速增长（图像搜索、VQA、RAG 等），基于预训练视觉-语言模型（CLIP/ALIGN/SigLIP）的方法已建立初步能力，但仅限于文本-图像匹配，无法处理更复杂的多模态任务。

指令微调瓶颈: 指令微调可增强多任务能力，但多模态检索的指令数据极度稀缺。现有方法（如 MagicLens）从共存于同一网页的图像对中合成数据，面临四大限制： - 可扩展性差: 仅少量网页包含多图像 - 质量低: 共存图像常不相关或高度重复 - 多样性不足: 相关图像关系单调（如同一物体不同角度） - 可获取性差: 大规模数据集通常私有不公开

核心 idea: 利用开放域图像语料（如 DataComp）+ 多个相似度模型挖掘异构图像对 + 开源 VLM/LLM 生成检索指令 → 大规模、高质量、多样化、公开可用的多模态检索训练数据。

方法详解¶

整体框架¶

MegaPairs 分为两个阶段：(1) 挖掘相关图像对——使用三种相似度模型发现异构关联；(2) 生成开放式检索指令——VLM 描述关系 + LLM 精炼为指令。

阶段一：挖掘相关图像对¶

三种相似度模型引入异构关联:
视觉-语义关联 (EVA-CLIP 图像编码器): 捕捉语义相关但视觉不同的图像对（如同一辆车的不同视角）
视觉-模式关联 (DINOv2): 捕捉视觉相似但语义可能不同的图像对（如不同车在相似背景中）
标题关联 (EVA-CLIP 文本编码器): 基于图像标题的文本相似性
过滤策略: 保留相似度在 (0.8, 0.96) 范围内的图像对，排除弱关联和近重复
Hard Negatives: 对每个图像对 (I_q, I_ti)，检索集中的其他图像 {I_tj | tj ≠ ti} 自然充当 hard negatives，每对引入 5 个 hard negatives

阶段二：生成开放式指令¶

Step 1: VLM (InternVL2-26B) 输入图像对，生成两张图像之间共同概念和差异的详细描述 D_i
Step 2: LLM (LLaMA3-8B) 将描述精炼为检索指令 T_{q→ti}，每对生成至少 3 条不同指令增加多样性
最终三元组: (I_q, T_{q→ti}, I_ti)，其中 (I_q, T_{q→ti}) 用于检索 I_ti

实现规模¶

图像语料: Recap-DataComp-1B 的 2000 万带标题图像子集
合成结果: 26,235,105 个图像对，全面开源

MMRet 模型¶

设计了两种架构：

CLIP-based MMRet (Base/Large):
- 双编码器架构独立编码图像和文本
- 多模态嵌入使用 score-fusion: e_it = Φ_I(I) + Φ_T(T)
MLLM-based MMRet (基于 LLaVA-1.6 Mistral 7B):
- 将图像 token 直接输入 LLM 处理
- 使用任务特定指令: {task_inst} {q_t} {q_i} [EOS]
- 以 [EOS] token 的归一化最后隐藏状态作为嵌入

训练目标¶

标准 InfoNCE 对比损失: $$\mathcal{L} = -\frac{1}{|\mathcal{Q}|}\sum_{q_i \in \mathcal{Q}} \log \frac{\exp(\mathbf{e}_{q_i} \cdot \mathbf{e}_{c_i^+}/\tau)}{\sum_{c_j \in \mathcal{C}} \exp(\mathbf{e}_{q_i} \cdot \mathbf{e}_{c_j}/\tau)}$$ 温度参数 τ = 0.02。query 和 candidate 可以是图像、文本或图文组合。

实验¶

零样本 CIR 性能（Table 1）¶

方法	Backbone	Params	CIRCO mAP@5	CIRR R@1	FashionIQ R@10	GeneCIS Rs@1
MagicLens-L‡	CoCa-L	613M	34.1	33.3	38.0	16.7
IP-CIR	CLIP-G	43.8B†	32.8	39.3	45.7	-
MMRet-Base	CLIP-B	149M	34.3	36.1	31.9	18.0
MMRet-Large	CLIP-L	428M	39.2	38.0	34.6	18.1
MMRet-MLLM	LLaVA-1.6	7.57B	42.2	46.7	35.6	21.1

关键发现: - MMRet-MLLM 在 CIRCO 上超越前 SOTA 8.1 个百分点（42.2 vs 34.1） - MMRet-Base (149M) 甚至超越了多数大模型（包括 MagicLens-L 613M） - 所有 MMRet 模型在所有规模上均领先

MMEB 零样本性能（Table 2）¶

模型	Classification	VQA	Retrieval	Grounding	Overall
UniIR	42.1	15.0	60.1†	62.2	42.8
MMRet-MLLM	47.2	18.4	56.5	62.2	44.0

在 36 个数据集的综合评估中，MMRet-MLLM 取得最高整体得分 44.0，且 UniIR 的检索元任务包含 10/12 个 MMEB 检索数据集（非严格零样本）。

MMEB 微调性能（Table 3）¶

模型	IND	OOD	Overall
VLM2Vec (LLaVA-1.6)	61.0	47.5	55.0
VLM2Vec (Phi-3.5-V)	66.5	52.0	60.1
MMRet-MLLM	68.0	59.1	64.1

微调后 OOD 性能提升 11.6%（vs LLaVA-1.6 baseline），展现 MegaPairs 预训练赋予的强泛化能力。

数据质量与可扩展性（Figure 2）¶

70× 数据效率: 仅 0.5M MegaPairs 样本即超越用 36.7M MagicLens 数据训练的模型
持续缩放: 性能随数据量增长持续提升，未观察到饱和

消融实验¶

Hard Negatives 效果 (Table 4): 使用挖掘的 hard negatives 在 CIRCO 上提升 2.6 个百分点（29.7→32.3）
搜索策略 (Table 5): 三种相似度模型联合使用效果最佳（32.3 mAP@5），文本相似度单独使用优于视觉相似度

亮点与洞察¶

数据合成范式创新: 从"依赖网页共存图像"转向"从开放域语料主动挖掘"，彻底解决了可扩展性瓶颈
异构关联是关键: 三种不同相似度模型引入的多样化关联是数据质量的核心保障——单一模型的关系太单调
极致的数据效率: 0.5M 数据胜 36.7M，说明数据质量远比数量重要，这是检索领域的经典洞察
全开源: 数据集 + 模型 + pipeline 全套开源，对社区贡献巨大
小模型强势: MMRet-Base (149M) 超越多数大模型，证明正确的训练数据可以弥补模型规模差距

局限性¶

仅使用三种检索器构建图像对，更多检索策略（如 BGE、图文交叉检索）可能进一步提升多样性
图像来源经过 Datacomp 团队筛选但可能不完全干净
CLIP-based MMRet 在 FashionIQ 等垂直领域性能不如 CIR 专用模型

评分 ⭐⭐⭐⭐⭐¶

创新性: ⭐⭐⭐⭐⭐ 异构 KNN 三元组 + VLM/LLM 注释的数据合成范式新颖且有效
实验完备性: ⭐⭐⭐⭐⭐ 4 个 CIR 基准 + MMEB 36 数据集 + 零样本/微调 + 数据缩放/消融
实用性: ⭐⭐⭐⭐⭐ 全套开源，2600 万数据立即可用，解决领域痛点
写作: ⭐⭐⭐⭐ 方法描述清晰，图示丰富