UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings¶

会议: ICLR 2026
arXiv: 2511.00405
代码: GitHub
领域: 多模态嵌入 / 推理驱动的生成式表示
关键词: multimodal embeddings, reasoning-driven generation, reinforcement learning, MLLM, inference-time scaling

一句话总结¶

提出 UME-R1，首次探索推理驱动的生成式多模态嵌入范式，通过两阶段训练（冷启动SFT + 强化学习）让嵌入模型先推理再生成表示，在 MMEB-V2 基准的 78 个任务上显著超越传统判别式嵌入模型。

研究背景与动机¶

领域现状：基于多模态大语言模型（MLLM）的嵌入模型（如 VLM2Vec、MM-Embed）已在多模态嵌入任务上取得显著进展，大幅超越传统的双编码器视觉-语言模型（如 CLIP）。同时，以 DeepSeek-R1 为代表的大推理模型（LRM）在复杂推理任务上取得突破。
现有痛点：现有的 MLLM 多模态嵌入模型本质上是判别式的——直接编码输入并提取最后一个 token 的隐藏状态作为嵌入，不生成任何新 token。这使得它们无法受益于推理驱动的生成范式。虽有部分工作（如 CAFe）在训练中加入 next-token prediction loss 来保留生成能力，但推理时仍然是判别式的。
核心矛盾：推理能力和嵌入质量之间存在天然鸿沟——嵌入任务缺乏像数学那样有标准答案的验证机制，使得强化学习难以直接应用于嵌入模型优化。
本文要解决什么？：如何让多模态嵌入模型在生成范式下工作，使其能先推理再生成更高质量的嵌入？如何将 RL 成功应用于缺乏标准答案的嵌入任务？
切入角度：将嵌入任务统一到生成范式下，模型先生成推理过程和摘要，然后基于这些上下文产生嵌入。通过设计排名+相似度差距的组合奖励来实现 RL 优化。
核心idea一句话：让嵌入模型先思考推理再出表示，并通过 RL 持续优化推理质量，实现嵌入任务的推理时间扩展。

方法详解¶

整体框架¶

UME-R1 是一个通用多模态嵌入框架，核心包含两个阶段的训练策略：(1) 冷启动 SFT 让模型具备推理能力和同时生成判别/生成式嵌入的能力；(2) RL 进一步增强推理并优化生成式嵌入质量。推理时模型可以按需切换判别或生成式嵌入模式。

关键设计¶

设计1：双模态嵌入架构 - 做什么：设计统一模板，让模型同时产出判别式和推理驱动的生成式嵌入 - 核心思路：在 prompt 中插入 <disc_emb> token 用于判别式嵌入；模型先生成 <think>...</think><answer> 进行推理和摘要，最后生成 <gen_emb> token 用于生成式嵌入。两种嵌入分别取最后一层对应 token 的隐藏状态 - 设计动机：判别式嵌入无额外开销，生成式嵌入利用推理信息提供更丰富的语义表示，两者互补——oracle 实验显示组合上限远超任一单独使用

设计2：冷启动数据集构建 - 做什么：为 1.76M 个 query-target 对生成 CoT 标注 - 核心思路：使用 GLM-4.1V-Thinking 为每对的 query 和 target 分别生成推理过程，经过过滤（排除重复 token、超长推理、格式不符合的样本）得到 1.46M SFT 对和 11K RL 训练对 - 设计动机：冷启动数据让模型在 SFT 阶段就学会推理和生成嵌入的基本能力

设计3：嵌入奖励函数 - 做什么：为嵌入任务设计可验证的 RL 奖励 - 核心思路：奖励 = 排名分数 × 相似度差距。排名分数衡量正样本相似度在所有样本中的排名比例；相似度差距衡量正负样本的平均相似度差异。两部分相乘得到综合奖励 - 设计动机：解决嵌入任务没有标准答案的难题。单纯用阈值会导致某些对过难或过易，产生零策略梯度问题。排名+差距的组合设计更鲁棒

损失函数 / 训练策略¶

SFT 阶段：三项损失之和 - 判别式对比损失 \(\mathcal{L}_{dctr}\)（InfoNCE） - 生成式对比损失 \(\mathcal{L}_{gctr}\)（带推理轨迹的 InfoNCE） - 自回归交叉熵损失 \(\mathcal{L}_{ce}\)（作用于推理和摘要 token）

RL 阶段：使用 GRPO 优化 - 格式奖励：是否严格遵循 <think>...</think><answer> 模板 - 嵌入奖励：排名 × 相似度差距的组合奖励 - Group size G=8, ε=0.2, β=0.04, batch size 256, lr=1e-6

实验关键数据¶

主实验¶

模型	Image	Video	VisDoc	All
VLM2Vec-V2 (2B)	64.9	34.9	65.4	58.0
CAFe (7B)	67.6	42.4	63.9	60.6
DUME (2B)	62.5	33.2	52.8	52.7
UME-R1 (2B)	66.6	42.2	63.9	60.1
UME-R1 Oracle (2B)	+4.3	—	—	—
UME-R1 Oracle (7B)	+3.6	—	—	—

在相同数据量下（仅 VLM2Vec-V2 的 2/3），UME-R1 总体提升 2.1 分。

消融实验¶

组件	Image	Video	VisDoc
DUME (仅判别)	62.5	33.2	52.8
+ 生成式嵌入 (SFT)	66.6 (+4.1)	42.2 (+9.0)	63.9 (+11.1)
+ RL	进一步提升	—	—
Oracle (判别+生成最优)	+4.3 (2B) / +3.6 (7B)	—	—

关键发现¶

生成式嵌入大幅优于判别式：相同数据下，UME-R1 在图像/视频/文档三个模态分别提升 4.1/9.0/11.1 分
两种嵌入高度互补：Oracle 上限远超单独使用任一种，说明实际应用中可按需切换
RL 有效提升生成式嵌入：证明 RLVR 可扩展到缺乏标准答案的嵌入任务
推理时间可扩展：重复采样提升 pass@k 覆盖率，暗示推理时间扩展在嵌入任务上也有潜力

亮点与洞察¶

范式创新：首次将推理驱动的生成范式引入多模态嵌入，打破了嵌入模型必须是判别式的传统认知
嵌入 RL 的突破：巧妙设计排名×相似度差距奖励，解决了嵌入任务无标准答案下 RL 训练的零梯度问题
灵活性：模型可同时输出判别和生成式两种嵌入，用户可按需选择
推理时间扩展：pass@k 结果暗示嵌入任务也存在 inference-time scaling 的潜力，这一发现极具前瞻性
数据效率：仅用 VLM2Vec-V2 2/3 的数据就实现了更好的性能

局限性 / 可改进方向¶

推理开销：生成式嵌入需要先生成推理和摘要，推理延迟显著增加，不适合延迟敏感场景
CoT 标注依赖：SFT 数据依赖 GLM-4.1V-Thinking 模型生成 CoT，标注质量受限于教师模型能力
Oracle 差距大：Oracle 与单模式嵌入差距仍达 3-4 分，说明当前模式选择策略有提升空间
主要在 MMEB-V2 评估：需要在更多下游任务（如检索引擎、RAG系统）上验证实际效果
RL 数据量小：仅 11K RL 训练对，扩大 RL 数据可能带来更大提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将推理驱动生成范式引入嵌入任务，开辟全新方向
实验充分度: ⭐⭐⭐⭐ — 78 个任务覆盖三个模态，消融充分，但缺少延迟分析和实际应用场景验证
写作质量: ⭐⭐⭐⭐ — 问题动机清晰，方法描述完整，但部分符号较密集
价值: ⭐⭐⭐⭐⭐ — 开辟嵌入模型新范式，RL 奖励设计和推理时间扩展的发现具有广泛启发意义