MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query¶
会议: NeurIPS 2025
arXiv: 2506.03144
代码: https://github.com/weichow23/merit
领域: 多模态VLM / 语义检索 / 多条件检索
关键词: interleaved retrieval, multilingual, multi-condition query, contrastive learning, embedding reconstruction
一句话总结¶
提出首个多语言交错多条件语义检索数据集 MERIT(320K queries, 135K products, 5种语言, 7大品类),揭示现有检索模型仅关注全局语义而忽略条件细节的瓶颈,并设计 Coral 微调框架通过嵌入重建+对比学习将检索性能提升 45.9%。
研究背景与动机¶
- 领域现状:语义检索在产品搜索、RAG 等场景中至关重要,但现有数据集局限于单语言、单图像、单检索条件,远未覆盖真实场景的复杂性。
- 现有痛点:大量已有工作(Fashion-IQ、CIRR、Magiclens 等)在图像被替换为对应 caption 后性能不受影响,说明这些数据集没有真正利用图像的表达能力(Vision Unnecessarity)。
- 核心矛盾:真实产品检索经常涉及交错的多条件查询(如特定花纹+特定材质),其中许多属性必须通过图像表达,现有数据集无法评估这类能力。
- 本文要回答的两个问题:(1) 如何全面衡量现有模型在交错多条件检索任务上的能力?(2) 限制性能的关键因素是什么、如何改善?
方法详解¶
MERIT 数据集构建¶
- 规模:135K 产品,320K 检索对(310K 训练 + 10K 测试),涵盖 5 种语言(英/马来/印尼/越南/泰)和 7 大产品品类
- 标注流程(4步):
- 高质量产品选择:从东南亚 6 国内部数据集中筛选热门产品,GPT-4o 生成标题,美学评分过滤
- 开放式属性标注:116 个唯一属性、2594 个属性值,采用开放标注+统计分析的方式确定属性体系
- 查询对组合:三种采样策略融合——均匀采样、属性均匀采样、高相似度产品优先采样
- 多轮过滤:自动规则过滤 + 人工专家审核,总计投入 10,000 人工小时
- 关键特性:首个支持多图像交错输入的语义检索数据集;查询包含 ≥2 个条件,大多为双条件(319,600)
Coral 微调框架¶
核心思想:将预训练 MLLM 适配为多模态检索模型时,在对比学习之外加入嵌入重建,保留细粒度条件信息。
-
对比学习损失 \(\mathcal{L}_{cl}\): $\(\mathcal{L}_{cl} = -\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp(q_i \cdot k_{i+}/\tau)}{\sum_{j=1}^{N}\exp(q_i \cdot k_j/\tau)}\)$ 标准 InfoNCE Loss,拉近 query 与正样本、推远负样本。
-
视觉重建损失 \(\mathcal{L}_{mse}\):
- 对多模态嵌入 \(E=[e_{img};e_{txt}]\) 中的视觉部分进行随机掩码(比率 \(\delta=0.5\)),使用随机初始化的 BERT 解码层 \(\mathcal{F}_{\theta}^{v}\) 重建 $\(\mathcal{L}_{mse} = -\frac{1}{N}\sum_{i=1}^{N}\|\hat{E} - E\|_2^2, \quad \hat{E} = \mathcal{F}_{\theta}^{v}[\mathcal{MASK}_v(E); h_{eos}]\)$
-
设计动机:仅靠 [EOS] token 的对比学习会过度压缩全局语义,掩码重建迫使模型在 [EOS] 中保留细粒度视觉信息
-
掩码语言建模损失 \(\mathcal{L}_{mlm}\):
-
对文本部分掩码后重建,解码器 \(\mathcal{F}_{\theta}^{l}\) 与 MLLM 的 LM head 共享参数 $\(\mathcal{L}_{mlm} = -\frac{1}{N}\sum_{i=1}^{N}\log P(\hat{x}_i \mid X)\)$
-
总损失: $\(\mathcal{L} = \mathcal{L}_{cl} + \lambda_1 \mathcal{L}_{reg} + \lambda_2 \mathcal{L}_{rec}\)$ 其中 \(\mathcal{L}_{reg}\) 和 \(\mathcal{L}_{rec}\) 分别用条件的 [EOS] 和目标自身的 [EOS] 作为 attention query 来重建检索目标。
实验关键数据¶
现有模型在 MERIT 上的表现(零样本 + Embedding 模型)¶
| 方法 | 规模 | 输入类型 | R@1 | R@5 | R@10 | MRR |
|---|---|---|---|---|---|---|
| Qwen2.5-VL (Zero-Shot) | 3B | Seq | 0.09 | 0.39 | 0.56 | 0.21 |
| LamRA-Qwen2.5VL | 7B | Cat | 12.05 | 39.13 | 48.03 | 23.80 |
| GME-Qwen2VL | 2B | Cat | 8.47 | 47.13 | 56.18 | 25.02 |
| BGE-VL | 7B | Cat | 11.55 | 38.01 | 46.26 | 23.00 |
Coral 消融实验(Qwen2.5-VL)¶
| 方法 | LoRA | 类型 | R@1 | R@5 | R@10 | MRR |
|---|---|---|---|---|---|---|
| CL baseline | ✓ | Seq | 48.52 | 73.11 | 77.93 | 59.48 |
| CL baseline | ✗ | Seq | 47.76 | 73.97 | 80.47 | 59.06 |
| +Coral (Full) | ✗ | Seq | 69.68 | 89.26 | 93.08 | 78.33 |
| +Coral | ✗ | Cat | 60.94 | 85.60 | 90.40 | 71.70 |
- Coral 相比纯对比学习 R@1 提升 45.9%(47.76 → 69.68)
- 序列输入(Seq)始终优于图像拼接(Cat)
- 全参微调优于 LoRA
- 在 8 个外部检索 benchmark 上也取得一致提升,VisDial 上提升 181%
关键发现¶
- 图像拼接输入 R@5 比交错输入高 119.7%,但训练后交错输入性能提升 14.3%
- 图像被替换为 caption 后性能下降 73.9%,证实图像不可或缺
- 错误分析:属性错误和视觉理解错误占比最高
亮点¶
- ⭐⭐⭐⭐ 首个交错多条件多语言语义检索数据集:填补了重要空白,10K 人工小时标注保证质量
- ⭐⭐⭐⭐ 问题诊断精准:清晰揭示现有方法"只看全局、忽略条件细节"的瓶颈
- ⭐⭐⭐⭐ Coral 设计优雅:掩码重建作为对比学习的互补手段,思路简洁有效
- ⭐⭐⭐ 实验全面:9 个 SOTA 基线 + 8 个外部 benchmark + OOD 分析 + 错误归因
局限性 / 可改进方向¶
- 数据集仅覆盖电商产品检索场景,向其他领域(学术搜索、新闻检索)的迁移性待验证
- 重建解码器增加训练开销,推理时虽可丢弃但训练效率需关注
- 语言覆盖偏向东南亚,未包含中文、日文等东亚语言
- 属性标注依赖内部数据,可复现性受限
总评¶
⭐⭐⭐⭐ 扎实的 benchmark + 方法论文,数据集构建规范、问题定位清晰、方法设计巧妙。MERIT 有望成为多模态检索领域的重要评估标准,Coral 的"重建+对比"范式具有推广价值。