Proxy-GRM: Learning Transferable Rubrics via Proxy-Guided Critique for VLM Reward Models¶

日期: 2026-03-17
arXiv: 2603.16600
代码: GitHub
领域: 多模态/VLM / LLM对齐
关键词: 生成式奖励模型, 评估准则可迁移性, 代理验证, GRPO, VLM评估

一句话总结¶

提出 Proxy-GRM，通过训练独立的代理评估器验证生成式奖励模型（GRM）产生的评估准则（rubric）的可迁移性，将该验证信号作为 RL 奖励闭环优化 rubric 质量，仅用 ~50K 数据在三个 VLM 奖励基准上达到 SOTA。

研究背景与动机¶

领域现状: 生成式奖励模型（GRM）通过三阶段流水线评估 VLM 输出：生成评估准则（rubric）→ 逐条打分 → 最终判断。这比标量奖励模型更可解释。
现有痛点: 整个流水线的可靠性取决于第一步 rubric 的质量，但现有方法只优化最终答案——rubric 完全无监督。模型可能学会"先决定答案再编造理由"（post-hoc rationalization），产生的 rubric 无法迁移给其他评估者使用。
核心矛盾: 需要验证 rubric 质量，但 LLM-as-Judge 方式计算昂贵且不可微分，无法接入训练循环。
切入角度: 定义"rubric 可迁移性"——如果一个独立的评估者仅凭 rubric 就能做出正确的偏好判断，说明 rubric 编码了充分且无偏的信息。
核心 idea: 训练冻结的代理评估器（Proxy Agent），用其预测准确率作为 rubric 质量的奖励信号，闭环接入 GRPO 训练。

方法详解¶

整体框架¶

数据蒸馏: 合并多个 VLM 偏好数据集 → 过滤得到 ~60K 样本
代理训练: 训练 Proxy-SFT（从正确蒸馏样本 SFT）和 Proxy-RL（在 SFT 基础上再 RL）
策略训练: Cold-start SFT → GRPO with 三重奖励（准确性 + 代理验证 + 格式）
推理: 标准模式直接出答案 / 代理验证模式双重检查

关键设计¶

Rubric 可迁移性的形式化:
- 做什么：定义什么是"好的 rubric"
- 核心思路：\(\text{Transferability}(\mathcal{R}) = \mathbf{1}[\phi(q, \mathcal{I}, r_1, r_2, \mathcal{R}) = \mathcal{A}^*]\)，即独立代理 \(\phi\) 仅凭 rubric 能否做出正确偏好判断
- 设计动机：这是一个可计算的二元信号，可以直接作为 RL 奖励——解决了 LLM-as-Judge 不可微分的问题
代理评估器训练（Proxy Agent）:
- 做什么：训练一个专门消费 rubric（而非生成 rubric）的独立模型
- 核心思路：Proxy-SFT 在 55K 正确样本上 SFT 训练，输入 \((q, \mathcal{I}, r_1, r_2, \mathcal{R})\)，输出评估 + 判断。Proxy-RL 在 SFT 基础上用准确率 RL 继续训练
- 关键发现：Proxy-SFT 意外地比 Proxy-RL 表现更好。RL 训练的代理可能产生内部不一致的评估过程——用有缺陷的推理得到正确答案——这种不一致使其作为 rubric 验证器时给出噪声信号
三重奖励 GRPO 训练:
- 做什么：闭环优化策略模型的 rubric 质量
- 核心思路：\(r = r_{\text{acc}} + r_{\text{proxy}} + 0.5 \cdot r_{\text{format}}\)
- \(r_{\text{acc}}\): 最终判断是否正确 (±1)
- \(r_{\text{proxy}}\): 冻结代理能否用 rubric 做出正确判断 (±1)
- \(r_{\text{format}}\): 输出格式是否规范 (0/1)
设计动机：\(r_{\text{acc}}\) 保证最终答案正确，\(r_{\text{proxy}}\) 保证 rubric 有真正的信息量而非 post-hoc rationalization。代理冻结防止共适应。

训练细节¶

基座模型：Qwen2.5-VL-7B-Instruct
教师模型：Qwen3-VL-235B-A22B（蒸馏用）
SFT lr=1e-5, RL lr=5e-6, GRPO group size=7
总数据量 ~50K（比竞品少 4×）

实验关键数据¶

三基准主实验¶

方法	数据量	VL-RewardBench	MM Reward Bench	MM-RLHF-RB
Proxy-GRM	50K	75.22	85.62	82.94
Unified-Reward-Think	200K+	73.80	84.40	81.18
R1-Reward	200K+	71.92	82.20	80.59
GPT-4o	-	65.40	70.80	73.93
Claude-3.7-Sonnet	-	70.70	71.90	82.43

用 4× 少的数据超越所有开源和闭源方法。

代理选择消融¶

代理类型	VL-RewardBench	平均分
Proxy-SFT	75.22	81.26
Proxy-RL	73.38	79.97
Unified-Reward-SFT	74.98	81.18
Unified-Reward-Think (RL)	73.14	79.77
Qwen2.5-VL-32B	74.02	80.25
Qwen2.5-VL-3B	72.25	77.87

SFT 代理全面优于 RL 代理——包括外部模型（Unified-Reward-SFT > Think）也验证了这一规律。

关键发现¶

SFT > RL 作为代理：RL 模型可能用错误推理得到正确答案（结果正确但过程不一致），作为验证器时产生噪声信号
数据效率极高：50K 样本 > 200K+ 样本的竞品，proxy 信号比简单增加数据更有效
Rubric 可迁移：生成的 rubric 传给未见过的评估者（如 Qwen2.5-VL-32B）仍能提升准确率

亮点与洞察¶

Rubric 可迁移性作为优化目标：将模糊的"rubric 质量"转化为可计算的二元信号（代理能否用它做对判断），既有理论优雅又有实践价值。
SFT > RL 作为验证器的发现：揭示了 outcome-only RL 的深层问题——结果对了但过程可能是乱来的。这对 reward model 训练有广泛启示：不是所有 RL trained 模型都适合做评估者。
4× 数据效率：说明信号质量 > 数据数量。Proxy 奖励提供了比简单扩大数据更精准的学习信号。

局限性 / 可改进方向¶

代理和策略用同一基座：Proxy-SFT 和 Proxy-GRM 都基于 Qwen2.5-VL-7B，能力上限一致，更大的代理是否更好？
Rubric 格式固定：XML tag 格式的 rubric 是否是最优表示？自由文本 critique 可能更灵活
只管 rubric 不管 eval：当前只优化 rubric 生成，eval 阶段同样可能存在 rationalization

评分¶

新颖性: ⭐⭐⭐⭐⭐ Rubric 可迁移性 + proxy 闭环验证是全新范式，SFT>RL 发现有深度
实验充分度: ⭐⭐⭐⭐⭐ 三基准 + 代理选择消融 + 奖励配置消融 + 可迁移性验证
写作质量: ⭐⭐⭐⭐ 结构清晰，形式化定义严谨
价值: ⭐⭐⭐⭐⭐ 对 reward model 和 RLHF 社区有重要启示，代码开源