MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning¶

会议: CVPR 2026
arXiv: 2603.25108
代码: GitHub
领域: Reinforcement Learning / Multimodal Reward Modeling
关键词: 多模态奖励模型, 强化学习, 跨模态迁移, 知识蒸馏, 偏好对齐

一句话总结¶

提出多阶段强化学习（MSRL）方法，通过先在大规模文本偏好数据上学习奖励推理能力，再逐步迁移到多模态任务，解决多模态奖励模型训练中标注数据稀缺的瓶颈问题，在 VL-RewardBench 上将准确率从 66.6% 提升至 75.9%。

研究背景与动机¶

多模态奖励模型（MRM）是对齐多模态大语言模型（MLLM）与人类偏好的核心组件。近期研究从判别式转向生成式奖励建模（通过 CoT 推理生成偏好预测），并开始采用 RLVR（Reinforcement Learning from Verifiable Rewards）进一步增强 MRM 的能力。

然而，RLVR 面临一个根本性瓶颈：高质量多模态偏好标注数据极度稀缺。标注成本高昂，无法像文本领域那样大规模扩展 RL 训练。已有替代方案（如置信度估计、自验证）容易产生误差累积，性能快速饱和。

本文的核心洞见是：偏好推理的核心能力可以从丰富的纯文本数据中学习，并有效迁移到多模态场景。这打破了"必须用更多多模态数据来解决多模态数据不足"的固有假设。

方法详解¶

整体框架¶

MSRL 采用三阶段课程式训练策略： 1. Stage 1：在大规模文本偏好数据上进行 RL，建立通用奖励推理能力 2. Stage 2：在 caption-based 数据上进行 RL + 跨模态知识蒸馏，实现偏好迁移 3. Stage 3：在少量真实多模态数据上进行 RL，完成最终适配

关键设计¶

文本数据上的大规模 RL（Stage 1）：
- 先用 40k HelpSteer3 数据做 SFT（学习 CoT 输出格式）
- 再在 400k GRAM-R2 文本偏好数据上执行 GRPO 优化
- 冻结视觉编码器和投射层参数，仅训练语言部分
- 核心动机：文本偏好数据量大、获取成本低，可以充分利用 RL 的 scaling 特性
Caption-based RL + 偏好泛化（Stage 2）：
- 将多模态偏好数据中的图像/视频替换为对应的文字描述（caption），构建纯文本但保留多模态语义的训练数据
- 引入任务识别奖励 \(r_{\text{task}}\)：模型需先输出任务类型标签（如 <type>Image Understanding</type>），正确识别得 0.2 奖励
- 采用经验回放策略防止灾难性遗忘：训练批次中混入 Stage 1 的高质量文本样本（新旧比 5:1）
跨模态知识蒸馏（CMKD）：
- 解决模态差距问题：给定偏好样本和 caption，用 caption 训练的 MRM 生成 n 个候选推理
- 三步筛选得到最优教师信号 \(o^*\)：(1) 多数投票确定伪标签 (2) 格式过滤 (3) 选最高置信度
- 用 \([c, o^*]\) 对做 SFT，让模型即使只看视觉输入也能复现蒸馏的推理过程
- 后续 RL 阶段要求模型先生成 <caption> 再进行奖励推理
多模态 RL 微调（Stage 3）：
- 仅用 20k 多模态数据进行最终适配
- 由于前两个阶段已建立强大的奖励推理能力，此阶段所需数据量很少
- 同样使用任务识别奖励

损失函数 / 训练策略¶

三阶段均基于 GRPO 优化，核心目标：\(\mathcal{L}_{\text{RLVR}} = -\mathbb{E}[r_v(s,o)] - \beta \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\theta_{\text{old}}})\)
可验证奖励 \(r_v = r_{\text{format}} + r_{\text{accuracy}}\)（+ Stage 2/3 的 \(r_{\text{task}}\)）
采样大小 8，学习率 1e-6，批大小 128

实验关键数据¶

主实验¶

基准测试	指标	MSRL (8B)	Generative MRM	提升
VL-RewardBench	Avg Acc	75.9%	66.6%	+9.3%
Multimodal RewardBench	Avg Acc	80.5%	76.2%	+4.3%
GenAI-Bench (Image Gen.)	Acc	75.7%	70.2%	+5.5%
ShareGPT (Video Under.)	Acc	85.5%	80.6%	+4.9%
GenAI-Bench (Video Gen.)	Acc	81.4%	68.3%	+13.1%

MSRL 8B + voting@16 在 VL-RewardBench 上达到 77.5%，甚至超过 Claude-3.7-Sonnet (66.5%) 和 GPT-4o (62.4%)。

消融实验¶

配置	VL-RewardBench Avg	说明
Generative Baseline	66.6%	仅用多模态数据训练
w/o Stage 1	68.8%	去掉文本 RL → 损失最大 (-7.1%)
w/o Stage 2 (Caption)	74.3%	去掉 caption RL → -1.6%
w/o Stage 2 (CMKD)	73.4%	去掉跨模态蒸馏 → -2.5%
w/o Stage 3	72.6%	去掉多模态 RL → -3.3%
Full MSRL	75.9%	完整方法

关键发现¶

文本 RL 是最关键的阶段：Stage 1 贡献了最大的性能增益（+6.9%），证明奖励推理能力可以从纯文本中学习
Scaling 行为一致：从 1B 到 14B 模型，MSRL 的提升始终存在且更大模型受益更多
数据效率极高：仅 5k 多模态数据的 MSRL 已大幅超过仅用多模态数据的 baseline，表明文本 RL 建立的能力使多模态信号的边际收益递减
视频任务提升最大：视频生成任务提升 +13.1%，说明时序视觉数据更依赖强推理能力

亮点与洞察¶

突破数据瓶颈的巧妙思路：不是寻求更多多模态数据，而是利用跨模态迁移——这是一种"降维打击"式的解决方案
Caption 作为模态桥接：将图像替换为 caption 实现"文本→多模态"的平滑过渡，简洁而有效
任务识别奖励：让模型先识别任务类型再推理，提升了统一 MRM 在不同任务间的区分能力
工程友好：强调了 scalable axis——只需增加文本数据量就能持续提升多模态性能，无需昂贵的多模态标注

局限性 / 可改进方向¶

仅在 InternVL3.5 系列上验证，是否对其他架构（如 Qwen-VL、LLaVA）同样有效待验证
CMKD 中的 caption 由 GPT-5 生成，对 caption 质量有依赖
Stage 2 的经验回放比例（5:1）是否最优缺乏充分讨论
未探讨 MSRL 训练的 MRM 在实际 MLLM 对齐中的下游效果（如用于 rejection sampling / PPO）

评分¶

新颖性: ⭐⭐⭐⭐ — 多阶段 RL 课程设计新颖，但各组件（GRPO、caption bridging、知识蒸馏）本身不算新
实验充分度: ⭐⭐⭐⭐⭐ — 多尺度（1B-14B）、多任务（理解+生成）、多基准，消融完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，motivation 阐述充分
价值: ⭐⭐⭐⭐⭐ — 提供了一条实用、可扩展的多模态奖励模型训练路径