BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment¶

会议: CVPR 2026
arXiv: 2604.07201
代码: GitHub (有)
领域: 多模态检索 / 强化学习
关键词: 多模态检索, 查询对齐, 强化学习, 密集检索, 查询重写

一句话总结¶

提出 BRIDGE 系统，通过 FORGE（RL 训练的查询对齐模型）将噪声多模态查询蒸馏为检索优化的纯文本查询，配合 LENS 推理增强检索器，在 MM-BRIGHT 上达到 29.7 nDCG@10，作为插件进一步将 Nomic-Vision 提升到 33.3，超越最佳纯文本检索器。

领域现状: 密集检索在纯文本场景已很成熟（BEIR 59.0 nDCG@10），多模态编码器（CLIP、Nomic-Vision、VLM2Vec）也在发展，但在推理密集型多模态检索上表现不佳。

现有痛点: MM-BRIGHT 基准揭示了反直觉现象——最佳多模态检索器 Nomic-Vision（27.6）甚至不如最佳纯文本检索器（32.2）。现有方法集中在改进检索器端（更大编码器、对比训练、LLM 重排），但都接受噪声查询作为固定输入。

核心矛盾: 瓶颈不在检索器而在查询——原始多模态查询纠缠了图像描述、对话噪声和检索意图，系统性地恶化了嵌入相似度。没有任何视觉编码能力可以补偿查询质量差的问题。

本文要解决: 在检索之前重构查询，使其从"噪声多模态输入"变为"检索优化的纯文本查询"。

切入角度: 查询端对齐（而非检索器端改进），用 RL 直接优化下游检索质量。

核心idea: 多模态检索中的模态鸿沟本质上是查询表示问题而非模型能力问题。FORGE 用 RL 学会"桥接"用户多模态表达和检索器需要的输入。

三阶段管线: (1) GPT-4o 将查询图像转为文本描述 \(\delta(q_v)\) → (2) FORGE 将噪声查询对 \((q_t, \delta(q_v))\) 蒸馏为紧凑检索字符串 \(\hat{q}\) → (3) LENS 编码 \(\hat{q}\) 并从文本语料库检索。

\[\hat{\mathcal{D}}_k = \text{LENS}(\text{FORGE}(q_t, \text{GPT-4o}(q_v)), \mathcal{C}, k)\]

FORGE（Focused Retrieval Query Generator）:
- 基于 Qwen2.5-7B-Instruct 微调
- 输入: 拼接的文本问题 + 图像描述；输出: 不超过 200 词的检索优化搜索字符串
- 用 GRPO 强化学习训练，奖励函数为下游检索质量： \(r(\hat{q}, d^+) = \text{nDCG@}k(\text{LENS}(\hat{q}, \mathcal{C}), \{d^+\})\)
- 训练循环: 采样 \(G=8\) 个候选查询 → 计算检索奖励 → GRPO 梯度更新
- 设计动机: 与监督式查询重写不同，RL 直接优化检索结果而非模仿参考改写，让模型自由探索最优查询策略
LENS（Language-Enhanced Neural Search）:
- 基于 Qwen3-Embedding-4B 的双编码器密集检索器
- 在推理密集型检索数据上微调（数学、科学、医学、法律、软件工程）
- InfoNCE 损失 + 批内负样本 + \(M=7\) 个硬负样本
- cosine 相似度检索: \(\text{score}(\hat{q}, d_i) = \frac{\mathbf{e}_q \cdot \mathbf{e}_{d_i}}{\|\mathbf{e}_q\| \cdot \|\mathbf{e}_{d_i}\|}\)
- 设计动机: FORGE 产生的是意图丰富的结构化查询，需要推理能力强的检索器来匹配
Visual Captioning（视觉描述）:
- GPT-4o 生成密集领域感知描述，捕捉对象类型、空间关系、标签
- 离线一次性生成并缓存
- 设计动机: 将视觉内容接地为自然语言，让纯文本模型可处理