Proxy-GRM: Learning Transferable Rubrics via Proxy-Guided Critique for VLM Reward Models¶
日期: 2026-03-17
arXiv: 2603.16600
代码: GitHub
领域: 多模态/VLM / LLM对齐
关键词: 生成式奖励模型, 评估准则可迁移性, 代理验证, GRPO, VLM评估
一句话总结¶
提出 Proxy-GRM,通过训练独立的代理评估器验证生成式奖励模型(GRM)产生的评估准则(rubric)的可迁移性,将该验证信号作为 RL 奖励闭环优化 rubric 质量,仅用 ~50K 数据在三个 VLM 奖励基准上达到 SOTA。
研究背景与动机¶
-
领域现状: 生成式奖励模型(GRM)通过三阶段流水线评估 VLM 输出:生成评估准则(rubric)→ 逐条打分 → 最终判断。这比标量奖励模型更可解释。
-
现有痛点: 整个流水线的可靠性取决于第一步 rubric 的质量,但现有方法只优化最终答案——rubric 完全无监督。模型可能学会"先决定答案再编造理由"(post-hoc rationalization),产生的 rubric 无法迁移给其他评估者使用。
-
核心矛盾: 需要验证 rubric 质量,但 LLM-as-Judge 方式计算昂贵且不可微分,无法接入训练循环。
-
切入角度: 定义"rubric 可迁移性"——如果一个独立的评估者仅凭 rubric 就能做出正确的偏好判断,说明 rubric 编码了充分且无偏的信息。
-
核心 idea: 训练冻结的代理评估器(Proxy Agent),用其预测准确率作为 rubric 质量的奖励信号,闭环接入 GRPO 训练。
方法详解¶
整体框架¶
- 数据蒸馏: 合并多个 VLM 偏好数据集 → 过滤得到 ~60K 样本
- 代理训练: 训练 Proxy-SFT(从正确蒸馏样本 SFT)和 Proxy-RL(在 SFT 基础上再 RL)
- 策略训练: Cold-start SFT → GRPO with 三重奖励(准确性 + 代理验证 + 格式)
- 推理: 标准模式直接出答案 / 代理验证模式双重检查
关键设计¶
-
Rubric 可迁移性的形式化:
- 做什么:定义什么是"好的 rubric"
- 核心思路:\(\text{Transferability}(\mathcal{R}) = \mathbf{1}[\phi(q, \mathcal{I}, r_1, r_2, \mathcal{R}) = \mathcal{A}^*]\),即独立代理 \(\phi\) 仅凭 rubric 能否做出正确偏好判断
- 设计动机:这是一个可计算的二元信号,可以直接作为 RL 奖励——解决了 LLM-as-Judge 不可微分的问题
-
代理评估器训练(Proxy Agent):
- 做什么:训练一个专门消费 rubric(而非生成 rubric)的独立模型
- 核心思路:Proxy-SFT 在 55K 正确样本上 SFT 训练,输入 \((q, \mathcal{I}, r_1, r_2, \mathcal{R})\),输出评估 + 判断。Proxy-RL 在 SFT 基础上用准确率 RL 继续训练
- 关键发现:Proxy-SFT 意外地比 Proxy-RL 表现更好。RL 训练的代理可能产生内部不一致的评估过程——用有缺陷的推理得到正确答案——这种不一致使其作为 rubric 验证器时给出噪声信号
-
三重奖励 GRPO 训练:
- 做什么:闭环优化策略模型的 rubric 质量
- 核心思路:\(r = r_{\text{acc}} + r_{\text{proxy}} + 0.5 \cdot r_{\text{format}}\)
- \(r_{\text{acc}}\): 最终判断是否正确 (±1)
- \(r_{\text{proxy}}\): 冻结代理能否用 rubric 做出正确判断 (±1)
- \(r_{\text{format}}\): 输出格式是否规范 (0/1)
- 设计动机:\(r_{\text{acc}}\) 保证最终答案正确,\(r_{\text{proxy}}\) 保证 rubric 有真正的信息量而非 post-hoc rationalization。代理冻结防止共适应。
训练细节¶
- 基座模型:Qwen2.5-VL-7B-Instruct
- 教师模型:Qwen3-VL-235B-A22B(蒸馏用)
- SFT lr=1e-5, RL lr=5e-6, GRPO group size=7
- 总数据量 ~50K(比竞品少 4×)
实验关键数据¶
三基准主实验¶
| 方法 | 数据量 | VL-RewardBench | MM Reward Bench | MM-RLHF-RB |
|---|---|---|---|---|
| Proxy-GRM | 50K | 75.22 | 85.62 | 82.94 |
| Unified-Reward-Think | 200K+ | 73.80 | 84.40 | 81.18 |
| R1-Reward | 200K+ | 71.92 | 82.20 | 80.59 |
| GPT-4o | - | 65.40 | 70.80 | 73.93 |
| Claude-3.7-Sonnet | - | 70.70 | 71.90 | 82.43 |
用 4× 少的数据超越所有开源和闭源方法。
代理选择消融¶
| 代理类型 | VL-RewardBench | 平均分 |
|---|---|---|
| Proxy-SFT | 75.22 | 81.26 |
| Proxy-RL | 73.38 | 79.97 |
| Unified-Reward-SFT | 74.98 | 81.18 |
| Unified-Reward-Think (RL) | 73.14 | 79.77 |
| Qwen2.5-VL-32B | 74.02 | 80.25 |
| Qwen2.5-VL-3B | 72.25 | 77.87 |
SFT 代理全面优于 RL 代理——包括外部模型(Unified-Reward-SFT > Think)也验证了这一规律。
关键发现¶
- SFT > RL 作为代理:RL 模型可能用错误推理得到正确答案(结果正确但过程不一致),作为验证器时产生噪声信号
- 数据效率极高:50K 样本 > 200K+ 样本的竞品,proxy 信号比简单增加数据更有效
- Rubric 可迁移:生成的 rubric 传给未见过的评估者(如 Qwen2.5-VL-32B)仍能提升准确率
亮点与洞察¶
- Rubric 可迁移性作为优化目标:将模糊的"rubric 质量"转化为可计算的二元信号(代理能否用它做对判断),既有理论优雅又有实践价值。
- SFT > RL 作为验证器的发现:揭示了 outcome-only RL 的深层问题——结果对了但过程可能是乱来的。这对 reward model 训练有广泛启示:不是所有 RL trained 模型都适合做评估者。
- 4× 数据效率:说明信号质量 > 数据数量。Proxy 奖励提供了比简单扩大数据更精准的学习信号。
局限性 / 可改进方向¶
- 代理和策略用同一基座:Proxy-SFT 和 Proxy-GRM 都基于 Qwen2.5-VL-7B,能力上限一致,更大的代理是否更好?
- Rubric 格式固定:XML tag 格式的 rubric 是否是最优表示?自由文本 critique 可能更灵活
- 只管 rubric 不管 eval:当前只优化 rubric 生成,eval 阶段同样可能存在 rationalization
相关工作与启发¶
- vs R1-Reward: R1-Reward 用 RL 训练但无 proxy 验证,rubric 质量不可控。Proxy-GRM 用 proxy 闭环验证,+3.3pp
- vs Unified-Reward-Think: 也用 RL 训练奖励模型,但数据量是 Proxy-GRM 的 4×。说明 proxy 信号 > 更多数据
- 启发:这个"独立验证者"模式可以推广——任何 CoT 推理模型都可以用一个独立 agent 验证中间推理步骤的可迁移性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Rubric 可迁移性 + proxy 闭环验证是全新范式,SFT>RL 发现有深度
- 实验充分度: ⭐⭐⭐⭐⭐ 三基准 + 代理选择消融 + 奖励配置消融 + 可迁移性验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,形式化定义严谨
- 价值: ⭐⭐⭐⭐⭐ 对 reward model 和 RLHF 社区有重要启示,代码开源