MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval¶
会议: ACL 2025
arXiv: 2412.14475
代码: 将公开(数据集、模型、pipeline 全套公开)
领域: Multimodal VLM / 多模态检索
关键词: Multimodal Retrieval, Data Synthesis, Composed Image Retrieval, Contrastive Learning, instruction tuning, Hard Negatives
一句话总结¶
提出 MegaPairs 数据合成方法,利用异构 KNN 三元组从开放域图像语料中挖掘相关图像对,结合 VLM/LLM 生成检索指令,合成 2600 万多模态训练实例,训练的 MMRet 模型仅用 0.5M 数据即超越使用 36.7M 数据的 MagicLens(70× 数据效率),在 4 个 CIR 基准和 MMEB 36 个数据集上达到 SOTA。
研究背景与动机¶
领域现状: 多模态检索需求快速增长(图像搜索、VQA、RAG 等),基于预训练视觉-语言模型(CLIP/ALIGN/SigLIP)的方法已建立初步能力,但仅限于文本-图像匹配,无法处理更复杂的多模态任务。
指令微调瓶颈: 指令微调可增强多任务能力,但多模态检索的指令数据极度稀缺。现有方法(如 MagicLens)从共存于同一网页的图像对中合成数据,面临四大限制: - 可扩展性差: 仅少量网页包含多图像 - 质量低: 共存图像常不相关或高度重复 - 多样性不足: 相关图像关系单调(如同一物体不同角度) - 可获取性差: 大规模数据集通常私有不公开
核心 idea: 利用开放域图像语料(如 DataComp)+ 多个相似度模型挖掘异构图像对 + 开源 VLM/LLM 生成检索指令 → 大规模、高质量、多样化、公开可用的多模态检索训练数据。
方法详解¶
整体框架¶
MegaPairs 分为两个阶段:(1) 挖掘相关图像对——使用三种相似度模型发现异构关联;(2) 生成开放式检索指令——VLM 描述关系 + LLM 精炼为指令。
阶段一:挖掘相关图像对¶
- 三种相似度模型引入异构关联:
- 视觉-语义关联 (EVA-CLIP 图像编码器): 捕捉语义相关但视觉不同的图像对(如同一辆车的不同视角)
- 视觉-模式关联 (DINOv2): 捕捉视觉相似但语义可能不同的图像对(如不同车在相似背景中)
- 标题关联 (EVA-CLIP 文本编码器): 基于图像标题的文本相似性
- 过滤策略: 保留相似度在 (0.8, 0.96) 范围内的图像对,排除弱关联和近重复
- Hard Negatives: 对每个图像对 (I_q, I_ti),检索集中的其他图像 {I_tj | tj ≠ ti} 自然充当 hard negatives,每对引入 5 个 hard negatives
阶段二:生成开放式指令¶
- Step 1: VLM (InternVL2-26B) 输入图像对,生成两张图像之间共同概念和差异的详细描述 D_i
- Step 2: LLM (LLaMA3-8B) 将描述精炼为检索指令 T_{q→ti},每对生成至少 3 条不同指令增加多样性
- 最终三元组: (I_q, T_{q→ti}, I_ti),其中 (I_q, T_{q→ti}) 用于检索 I_ti
实现规模¶
- 图像语料: Recap-DataComp-1B 的 2000 万带标题图像子集
- 合成结果: 26,235,105 个图像对,全面开源
MMRet 模型¶
设计了两种架构:
-
CLIP-based MMRet (Base/Large):
- 双编码器架构独立编码图像和文本
- 多模态嵌入使用 score-fusion: e_it = Φ_I(I) + Φ_T(T)
-
MLLM-based MMRet (基于 LLaVA-1.6 Mistral 7B):
- 将图像 token 直接输入 LLM 处理
- 使用任务特定指令:
{task_inst} {q_t} {q_i} [EOS] - 以 [EOS] token 的归一化最后隐藏状态作为嵌入
训练目标¶
标准 InfoNCE 对比损失: $\(\mathcal{L} = -\frac{1}{|\mathcal{Q}|}\sum_{q_i \in \mathcal{Q}} \log \frac{\exp(\mathbf{e}_{q_i} \cdot \mathbf{e}_{c_i^+}/\tau)}{\sum_{c_j \in \mathcal{C}} \exp(\mathbf{e}_{q_i} \cdot \mathbf{e}_{c_j}/\tau)}\)$ 温度参数 τ = 0.02。query 和 candidate 可以是图像、文本或图文组合。
实验¶
零样本 CIR 性能(Table 1)¶
| 方法 | Backbone | Params | CIRCO mAP@5 | CIRR R@1 | FashionIQ R@10 | GeneCIS Rs@1 |
|---|---|---|---|---|---|---|
| MagicLens-L‡ | CoCa-L | 613M | 34.1 | 33.3 | 38.0 | 16.7 |
| IP-CIR | CLIP-G | 43.8B† | 32.8 | 39.3 | 45.7 | - |
| MMRet-Base | CLIP-B | 149M | 34.3 | 36.1 | 31.9 | 18.0 |
| MMRet-Large | CLIP-L | 428M | 39.2 | 38.0 | 34.6 | 18.1 |
| MMRet-MLLM | LLaVA-1.6 | 7.57B | 42.2 | 46.7 | 35.6 | 21.1 |
关键发现: - MMRet-MLLM 在 CIRCO 上超越前 SOTA 8.1 个百分点(42.2 vs 34.1) - MMRet-Base (149M) 甚至超越了多数大模型(包括 MagicLens-L 613M) - 所有 MMRet 模型在所有规模上均领先
MMEB 零样本性能(Table 2)¶
| 模型 | Classification | VQA | Retrieval | Grounding | Overall |
|---|---|---|---|---|---|
| UniIR | 42.1 | 15.0 | 60.1† | 62.2 | 42.8 |
| MMRet-MLLM | 47.2 | 18.4 | 56.5 | 62.2 | 44.0 |
在 36 个数据集的综合评估中,MMRet-MLLM 取得最高整体得分 44.0,且 UniIR 的检索元任务包含 10/12 个 MMEB 检索数据集(非严格零样本)。
MMEB 微调性能(Table 3)¶
| 模型 | IND | OOD | Overall |
|---|---|---|---|
| VLM2Vec (LLaVA-1.6) | 61.0 | 47.5 | 55.0 |
| VLM2Vec (Phi-3.5-V) | 66.5 | 52.0 | 60.1 |
| MMRet-MLLM | 68.0 | 59.1 | 64.1 |
微调后 OOD 性能提升 11.6%(vs LLaVA-1.6 baseline),展现 MegaPairs 预训练赋予的强泛化能力。
数据质量与可扩展性(Figure 2)¶
- 70× 数据效率: 仅 0.5M MegaPairs 样本即超越用 36.7M MagicLens 数据训练的模型
- 持续缩放: 性能随数据量增长持续提升,未观察到饱和
消融实验¶
- Hard Negatives 效果 (Table 4): 使用挖掘的 hard negatives 在 CIRCO 上提升 2.6 个百分点(29.7→32.3)
- 搜索策略 (Table 5): 三种相似度模型联合使用效果最佳(32.3 mAP@5),文本相似度单独使用优于视觉相似度
亮点与洞察¶
- 数据合成范式创新: 从"依赖网页共存图像"转向"从开放域语料主动挖掘",彻底解决了可扩展性瓶颈
- 异构关联是关键: 三种不同相似度模型引入的多样化关联是数据质量的核心保障——单一模型的关系太单调
- 极致的数据效率: 0.5M 数据胜 36.7M,说明数据质量远比数量重要,这是检索领域的经典洞察
- 全开源: 数据集 + 模型 + pipeline 全套开源,对社区贡献巨大
- 小模型强势: MMRet-Base (149M) 超越多数大模型,证明正确的训练数据可以弥补模型规模差距
局限性¶
- 仅使用三种检索器构建图像对,更多检索策略(如 BGE、图文交叉检索)可能进一步提升多样性
- 图像来源经过 Datacomp 团队筛选但可能不完全干净
- CLIP-based MMRet 在 FashionIQ 等垂直领域性能不如 CIR 专用模型
相关工作¶
- 多模态检索: CLIP/ALIGN/SigLIP 等预训练模型;UniIR、E5-V 等通用多模态嵌入
- 指令微调: 从 LLM (FLAN/InstructGPT) 到 Embedding (Su et al., GTE) 再到多模态 (MagicLens, UniIR)
- CIR 方法: SEARLE, CIReVL, LDRE, CompoDiff 等零样本/训练方法
评分 ⭐⭐⭐⭐⭐¶
- 创新性: ⭐⭐⭐⭐⭐ 异构 KNN 三元组 + VLM/LLM 注释的数据合成范式新颖且有效
- 实验完备性: ⭐⭐⭐⭐⭐ 4 个 CIR 基准 + MMEB 36 数据集 + 零样本/微调 + 数据缩放/消融
- 实用性: ⭐⭐⭐⭐⭐ 全套开源,2600 万数据立即可用,解决领域痛点
- 写作: ⭐⭐⭐⭐ 方法描述清晰,图示丰富
相关论文¶
- [ICML 2025] Universal Retrieval for Multimodal Trajectory Modeling
- [ICLR 2026] U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning
- [ACL 2025] CoSyn: Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
- [ACL 2025] Progressive Multimodal Reasoning via Active Retrieval
- [NeurIPS 2025] Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval