跳转至

Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models

会议: AAAI 2026
arXiv: 2511.12464
代码: 无
领域: 对齐RLHF / 奖励模型评估
关键词: Reward Model Evaluation, Preference Probing, MRMBench, Multi-Dimensional Preferences, Inference-Time Probing

一句话总结

提出 MRMBench 基准,通过 6 个维度(无害性、有帮助性、正确性、连贯性、复杂性、冗长性)的探针任务评估奖励模型是否有效捕获多维偏好,发现探针性能与 PPO 对齐质量强相关(Pearson \(r > 0.8\)),并提出推理时探针方法将 AlpacaEval win rate 从 57.3% 提升至 62.5%。

研究背景与动机

  1. 领域现状:奖励模型(RM)是 RLHF 对齐的核心组件,通常在人类偏好数据上训练 Bradley-Terry 损失。评估 RM 的常见方法是在固定的成对排序测试集上计算准确率(如 RewardBench),或直接评估对齐后 LLM 的端到端性能。

  2. 现有痛点:(1) 成对排序将评估简化为二元决策(哪个回复更好),无法揭示 RM 在各个偏好维度上的捕获能力——例如得高分是因为检测到了正确性还是无害性?(2) 端到端评估(训 PPO + 评 LLM)计算成本极高。(3) 随着多目标奖励模型的兴起,简单的成对排序更加不足以评估各维度的平衡。

  3. 核心矛盾:RM 的偏好表示是一个高维向量 \(\mathbf{h}_{[x,y]}\),但最终只输出一个标量奖励 \(r_\phi(x,y) = \mathbf{h}_{[x,y]} \mathbf{W}_r\)。当前方法只评估这个标量的排序正确性,无法理解黑盒内部到底学到了什么偏好。
  4. 本文要解决什么? (1) 判断 RM 是否在各偏好维度上有效编码了偏好;(2) 理解 RM 在做奖励预测时依赖哪些维度;(3) 利用这种理解改进对齐质量。
  5. 切入角度:借鉴 NLP 中探针任务(probing tasks)评估语言模型表示的思路——如果一个简单线性分类器能从 RM 的偏好表示中成功预测某个维度(如"有害 vs 无害"),就说明 RM 内部确实编码了该维度的偏好。
  6. 核心idea一句话:用探针分类器诊断奖励模型的偏好表示,首次实现对 RM 多维偏好捕获能力的细粒度评估和机制分析。

方法详解

整体框架

分为三个部分:(1) 构建 MRMBench——6 个维度的探针任务基准;(2) 评估 RM——冻结 RM 参数,训练轻量线性分类器在各探针任务上的准确率来量化偏好捕获能力;(3) 推理时探针——利用 K-means 聚类中心计算偏好表示到各维度质心的距离,分析 RM 预测时的维度依赖,并用置信度过滤改进 PPO 训练。

关键设计

  1. MRMBench 基准构建
  2. 做什么:构建覆盖 6 个偏好维度的探针任务数据集,含 Easy(二分类)和 Hard(三分类)两个版本。
  3. 核心思路:从 PKU-SafeRLHF(无害性)和 HelpSteer(其余 5 个维度)数据集中,通过合并原始细粒度标签构建二/三分类任务。例如无害性:Easy 版将原始 {1,2,3} 合并为"有害"、0 为"无害";Hard 版合并 {2,3} 为"有害",保留 1 为"轻微有害",0 为"无害"。每个任务选取约 10K-15K 训练样本和 1K 测试样本,确保类别平衡。
  4. 设计动机:Easy 版探测基本捕获能力,Hard 版探测细粒度区分能力。标签合并解决了原始数据的类别不平衡问题(如有帮助性中标签 0 仅占 8%)。

  5. 探针评估方法

  6. 做什么:冻结 RM,从最后一层 Transformer 的 EOS token 提取偏好表示 \(\mathbf{h}_{[x,y]} \in \mathbb{R}^d\),训练线性分类器 \(\mathbf{W}_c \in \mathbb{R}^{d \times k}\) 做分类。
  7. 核心思路:用标准交叉熵损失 \(-\log(\text{softmax}(\mathbf{h}_{[x,y]} \mathbf{W}_c))\) 训练 1 个 epoch,batch size 128,学习率从 {5e-5, 2e-5, 1e-5} 中选最优。测试集准确率即为该维度的偏好捕获分数。
  8. 设计动机:线性分类器的成功意味着偏好信息已线性可分地编码在表示中——这是真正的"捕获"而非死记硬背。RM 参数冻结保证评估的是 RM 自身学到的表示,而非分类器的拟合能力。

  9. 推理时探针(Inference-Time Probing)

  10. 做什么:在推理时分析 RM 预测依赖的偏好维度,并用其构建置信度指标改进 PPO 训练。
  11. 核心思路:对每个维度的验证集按标签分组,用 K-means 聚类得到质心 \(\mathcal{C}_{\text{dim}} = \{\mathbf{c}_1, \ldots, \mathbf{c}_k\}\)。推理时计算新样本 \(\mathbf{h}_{[x',y']}\) 到各维度质心的欧氏距离 \(d(x', y', \mathbf{c}_i) = \|\mathbf{h}_{[x',y']} - \mathbf{c}_i\|_2\)。距离小 → 预测更依赖该维度。动态 RLHF:如果所有维度质心的最小距离 \(d_{\min}\) 超过阈值 \(d_\tau\)(说明 RM 不确定),则丢弃该样本不用于 PPO 更新。
  12. 设计动机:当 RM 的预测不依赖任何已知偏好维度时,奖励信号不可靠,用于 PPO 更新会引入噪声甚至导致 reward hacking。选择性丢弃低置信样本可提高对齐质量。

损失函数 / 训练策略

  • 探针分类器:交叉熵损失,1 epoch,batch 128。学习率从 {5e-5, 2e-5, 1e-5} 中基于验证集性能选最优。
  • PPO 对齐:策略学习率 1e-5,价值模型 5e-6,batch 64,mini-batch PPO 4 epochs,cold-start trick(前 30 步仅更新价值模型),reward queue(1K 历史奖励)标准化。
  • 所有实验在 8×A800 GPU 上完成。RM 训练使用 Bradley-Terry 损失,学习率 1e-5,batch 256,训练 1 epoch。
  • SFT 阶段使用 100K preferred completions 从 Unified-Feedback 数据集,学习率 1e-5。
  • PPO 训练每 200 步保存 checkpoint,在验证集上选最优 checkpoint 以解决 reward over-optimization。

实验关键数据

主实验(MRMBench-Easy 准确率 %)

模型 参数 无害性 有帮助 正确性 连贯性 复杂性 冗长性 平均
GPM-LLaMA-3.1-8B 8B 90.9 71.1 72.6 69.9 91.1 82.2 79.6
QRM-LLaMA-3.1-8B-v2 8B 86.5 69.8 70.3 69.6 91.1 79.9 77.9
Eurus-RM-7B 7B 82.2 70.0 72.1 72.7 90.9 82.2 78.4
LLaMA-3.1-8B-Instruct (Baseline) 8B 80.4 66.3 69.4 67.0 89.1 79.1 75.2
UltraRM-13B 13B 54.5 74.5 72.6 90.9 82.2 71.7 74.4

消融实验(推理时探针改进 PPO 对齐)

方法 AlpacaEval Win Rate 说明
Vanilla PPO 57.3% 标准 PPO
Random 丢弃 54.3% 随机丢弃等量样本
Inference-Time Probing (\(d_\tau=140\)) 62.5% 基于维度距离的选择性丢弃

关键发现

  • RM 确实编码了多维偏好:训练在偏好数据上的 RM 平均探针准确率显著高于未经偏好训练的基线(如 GPM-LLaMA-3.1-8B 79.6% vs LLaMA-3.1-8B-Instruct 75.2%)。
  • 没有 RM 能在所有维度上同时表现优异:UltraRM-13B 在连贯性上高达 90.9% 但无害性仅 54.5%,说明单一标量奖励难以均衡多维偏好,突显多目标优化的必要性。
  • MRMBench 与对齐质量强相关:各维度 Pearson 相关系数均 > 0.8(\(p < 0.05\)),证明探针准确率是 RM 质量的可靠代理指标。
  • 细粒度偏好更难捕获:MRMBench-Hard 准确率大幅下降(如 GPM-LLaMA-3.1-8B 从 79.6% 降至 67.0%),但无害性和连贯性维度降幅较小,说明这两个维度被现有 RM 建模得较好。
  • 推理时探针有效提升对齐:+5.2 win rate 点(62.5% vs 57.3%),且 Random 丢弃反而更差(54.3%),证明是选择性丢弃而非简单减少样本量起了作用。

亮点与洞察

  • 从"评排序"到"评表示"的范式转换:不再只问"RM 排对了吗",而是问"RM 内部到底理解了什么偏好维度"。这种诊断视角对 RM 开发的指导性远超简单的 pairwise accuracy。
  • 推理时探针的实用性:不需要修改 RM 架构或重新训练,仅用 K-means 聚类就能构建置信度指标并改进 PPO——方法极其轻量,可即插即用到任何 RLHF pipeline。
  • 多维偏好不平衡的发现:揭示了现有 RM 的结构性弱点——它们往往在安全性上建模良好但在正确性上挣扎,为 RM 训练数据的配比提供了明确指导。- 轻量级评估代替端到端验证:相比训 PPO + 评 LLM 的高成本流程,探针评估仅需训 1 epoch 线性分类器,计算成本降低几个数量级,且与端到端性能强相关。

局限性 / 可改进方向

  • 仅覆盖 6 个偏好维度,缺少更细粒度的维度(如文化相关的无害性、创造性、事实性等)。附录中提供了扩展指南和公平性/伦理维度的案例研究。
  • 推理时探针的阈值 \(d_\tau\) 需要手动设定,缺乏自适应策略。不同场景可能需要不同阈值。
  • 探针分类器仅用线性层,可能低估 RM 中非线性编码的偏好信息。MLP 探针可能揭示更多。
  • 对齐实验仅用 PPO,未验证在 DPO/RLHF 的其他变体上的效果。
  • 未分析不同训练阶段 RM 偏好表示的演化过程,可能揭示更多关于 RM 训练动力学的洞察。
  • 数据来源限于 PKU-SafeRLHF 和 HelpSteer,标注质量和覆盖度可能影响探针任务的代表性。
  • 推理时探针方法依赖欧氏距离,在高维空间中可能受维度灾难影响,可探索余弦距离或 Mahalanobis 距离。
  • 尚未探索将 MRMBench 用于指导 RM 训练数据的主动采样和配比优化。

相关工作与启发

  • vs RewardBench (Lambert et al. 2024):RewardBench 用成对排序评估 RM 的整体准确率,无法分解到各偏好维度。MRMBench 通过探针任务实现维度级评估,信息量更丰富。
  • vs RMB (Zhou et al. 2024) / RM-Bench (Liu et al. 2024):同属 RM 评估工作,但都基于成对排序范式。MRMBench 是首个采用表示探针范式的 RM 评估方法。
  • vs 可解释 RM (Wang et al. 2024):可解释 RM 通过 Chain-of-Thought 或 MoE 架构实现可解释性,但需要重新训练新架构。推理时探针无需修改 RM,可直接应用于任何已有 RM。

评分

  • 新颖性: ⭐⭐⭐⭐ 探针评估 RM 的多维偏好是新颖视角,推理时探针实用性强
  • 实验充分度: ⭐⭐⭐⭐ 评估了 15+ 个 RM,PPO 端到端验证,Pearson 相关性分析完善
  • 写作质量: ⭐⭐⭐⭐ 三个 RQ 结构清晰,基准设计动机明确
  • 价值: ⭐⭐⭐⭐ 对 RM 选择、数据配比和对齐改进有直接实用指导