跳转至

UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

会议: ICLR 2026
arXiv: 2511.00405
代码: GitHub
领域: 多模态嵌入 / 推理驱动的生成式表示
关键词: multimodal embeddings, reasoning-driven generation, reinforcement learning, MLLM, inference-time scaling

一句话总结

提出 UME-R1,首次探索推理驱动的生成式多模态嵌入范式,通过两阶段训练(冷启动SFT + 强化学习)让嵌入模型先推理再生成表示,在 MMEB-V2 基准的 78 个任务上显著超越传统判别式嵌入模型。

研究背景与动机

  1. 领域现状:基于多模态大语言模型(MLLM)的嵌入模型(如 VLM2Vec、MM-Embed)已在多模态嵌入任务上取得显著进展,大幅超越传统的双编码器视觉-语言模型(如 CLIP)。同时,以 DeepSeek-R1 为代表的大推理模型(LRM)在复杂推理任务上取得突破。

  2. 现有痛点:现有的 MLLM 多模态嵌入模型本质上是判别式的——直接编码输入并提取最后一个 token 的隐藏状态作为嵌入,不生成任何新 token。这使得它们无法受益于推理驱动的生成范式。虽有部分工作(如 CAFe)在训练中加入 next-token prediction loss 来保留生成能力,但推理时仍然是判别式的。

  3. 核心矛盾:推理能力和嵌入质量之间存在天然鸿沟——嵌入任务缺乏像数学那样有标准答案的验证机制,使得强化学习难以直接应用于嵌入模型优化。

  4. 本文要解决什么?:如何让多模态嵌入模型在生成范式下工作,使其能先推理再生成更高质量的嵌入?如何将 RL 成功应用于缺乏标准答案的嵌入任务?

  5. 切入角度:将嵌入任务统一到生成范式下,模型先生成推理过程和摘要,然后基于这些上下文产生嵌入。通过设计排名+相似度差距的组合奖励来实现 RL 优化。

  6. 核心idea一句话:让嵌入模型先思考推理再出表示,并通过 RL 持续优化推理质量,实现嵌入任务的推理时间扩展。

方法详解

整体框架

UME-R1 是一个通用多模态嵌入框架,核心包含两个阶段的训练策略:(1) 冷启动 SFT 让模型具备推理能力和同时生成判别/生成式嵌入的能力;(2) RL 进一步增强推理并优化生成式嵌入质量。推理时模型可以按需切换判别或生成式嵌入模式。

关键设计

设计1:双模态嵌入架构 - 做什么:设计统一模板,让模型同时产出判别式和推理驱动的生成式嵌入 - 核心思路:在 prompt 中插入 <disc_emb> token 用于判别式嵌入;模型先生成 <think>...</think><answer> 进行推理和摘要,最后生成 <gen_emb> token 用于生成式嵌入。两种嵌入分别取最后一层对应 token 的隐藏状态 - 设计动机:判别式嵌入无额外开销,生成式嵌入利用推理信息提供更丰富的语义表示,两者互补——oracle 实验显示组合上限远超任一单独使用

设计2:冷启动数据集构建 - 做什么:为 1.76M 个 query-target 对生成 CoT 标注 - 核心思路:使用 GLM-4.1V-Thinking 为每对的 query 和 target 分别生成推理过程,经过过滤(排除重复 token、超长推理、格式不符合的样本)得到 1.46M SFT 对和 11K RL 训练对 - 设计动机:冷启动数据让模型在 SFT 阶段就学会推理和生成嵌入的基本能力

设计3:嵌入奖励函数 - 做什么:为嵌入任务设计可验证的 RL 奖励 - 核心思路:奖励 = 排名分数 × 相似度差距。排名分数衡量正样本相似度在所有样本中的排名比例;相似度差距衡量正负样本的平均相似度差异。两部分相乘得到综合奖励 - 设计动机:解决嵌入任务没有标准答案的难题。单纯用阈值会导致某些对过难或过易,产生零策略梯度问题。排名+差距的组合设计更鲁棒

损失函数 / 训练策略

SFT 阶段:三项损失之和 - 判别式对比损失 \(\mathcal{L}_{dctr}\)(InfoNCE) - 生成式对比损失 \(\mathcal{L}_{gctr}\)(带推理轨迹的 InfoNCE) - 自回归交叉熵损失 \(\mathcal{L}_{ce}\)(作用于推理和摘要 token)

RL 阶段:使用 GRPO 优化 - 格式奖励:是否严格遵循 <think>...</think><answer> 模板 - 嵌入奖励:排名 × 相似度差距的组合奖励 - Group size G=8, ε=0.2, β=0.04, batch size 256, lr=1e-6

实验关键数据

主实验

模型 Image Video VisDoc All
VLM2Vec-V2 (2B) 64.9 34.9 65.4 58.0
CAFe (7B) 67.6 42.4 63.9 60.6
DUME (2B) 62.5 33.2 52.8 52.7
UME-R1 (2B) 66.6 42.2 63.9 60.1
UME-R1 Oracle (2B) +4.3
UME-R1 Oracle (7B) +3.6

在相同数据量下(仅 VLM2Vec-V2 的 2/3),UME-R1 总体提升 2.1 分。

消融实验

组件 Image Video VisDoc
DUME (仅判别) 62.5 33.2 52.8
+ 生成式嵌入 (SFT) 66.6 (+4.1) 42.2 (+9.0) 63.9 (+11.1)
+ RL 进一步提升
Oracle (判别+生成最优) +4.3 (2B) / +3.6 (7B)

关键发现

  1. 生成式嵌入大幅优于判别式:相同数据下,UME-R1 在图像/视频/文档三个模态分别提升 4.1/9.0/11.1 分
  2. 两种嵌入高度互补:Oracle 上限远超单独使用任一种,说明实际应用中可按需切换
  3. RL 有效提升生成式嵌入:证明 RLVR 可扩展到缺乏标准答案的嵌入任务
  4. 推理时间可扩展:重复采样提升 pass@k 覆盖率,暗示推理时间扩展在嵌入任务上也有潜力

亮点与洞察

  • 范式创新:首次将推理驱动的生成范式引入多模态嵌入,打破了嵌入模型必须是判别式的传统认知
  • 嵌入 RL 的突破:巧妙设计排名×相似度差距奖励,解决了嵌入任务无标准答案下 RL 训练的零梯度问题
  • 灵活性:模型可同时输出判别和生成式两种嵌入,用户可按需选择
  • 推理时间扩展:pass@k 结果暗示嵌入任务也存在 inference-time scaling 的潜力,这一发现极具前瞻性
  • 数据效率:仅用 VLM2Vec-V2 2/3 的数据就实现了更好的性能

局限性 / 可改进方向

  1. 推理开销:生成式嵌入需要先生成推理和摘要,推理延迟显著增加,不适合延迟敏感场景
  2. CoT 标注依赖:SFT 数据依赖 GLM-4.1V-Thinking 模型生成 CoT,标注质量受限于教师模型能力
  3. Oracle 差距大:Oracle 与单模式嵌入差距仍达 3-4 分,说明当前模式选择策略有提升空间
  4. 主要在 MMEB-V2 评估:需要在更多下游任务(如检索引擎、RAG系统)上验证实际效果
  5. RL 数据量小:仅 11K RL 训练对,扩大 RL 数据可能带来更大提升

相关工作与启发

  • VLM2Vec / VLM2Vec-V2 的渊源:采用相同的判别式嵌入框架作为基础,在此上扩展生成式能力
  • DeepSeek-R1 的联系:借鉴推理驱动生成范式,但应用场景从问答扩展到嵌入
  • RAG 系统的启发:推理驱动嵌入可能在复杂检索任务(需要理解查询意图)上带来显著提升
  • inference-time scaling 研究的启发:pass@k 结果表明嵌入任务也有推理时间扩展的潜力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将推理驱动生成范式引入嵌入任务,开辟全新方向
  • 实验充分度: ⭐⭐⭐⭐ — 78 个任务覆盖三个模态,消融充分,但缺少延迟分析和实际应用场景验证
  • 写作质量: ⭐⭐⭐⭐ — 问题动机清晰,方法描述完整,但部分符号较密集
  • 价值: ⭐⭐⭐⭐⭐ — 开辟嵌入模型新范式,RL 奖励设计和推理时间扩展的发现具有广泛启发意义