Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models¶

会议: AAAI 2026
arXiv: 2511.12464
代码: 无
领域: 对齐RLHF / 奖励模型评估
关键词: Reward Model Evaluation, Preference Probing, MRMBench, Multi-Dimensional Preferences, Inference-Time Probing

一句话总结¶

提出 MRMBench 基准，通过 6 个维度（无害性、有帮助性、正确性、连贯性、复杂性、冗长性）的探针任务评估奖励模型是否有效捕获多维偏好，发现探针性能与 PPO 对齐质量强相关（Pearson \(r > 0.8\)），并提出推理时探针方法将 AlpacaEval win rate 从 57.3% 提升至 62.5%。

研究背景与动机¶

领域现状：奖励模型（RM）是 RLHF 对齐的核心组件，通常在人类偏好数据上训练 Bradley-Terry 损失。评估 RM 的常见方法是在固定的成对排序测试集上计算准确率（如 RewardBench），或直接评估对齐后 LLM 的端到端性能。
现有痛点：(1) 成对排序将评估简化为二元决策（哪个回复更好），无法揭示 RM 在各个偏好维度上的捕获能力——例如得高分是因为检测到了正确性还是无害性？(2) 端到端评估（训 PPO + 评 LLM）计算成本极高。(3) 随着多目标奖励模型的兴起，简单的成对排序更加不足以评估各维度的平衡。
核心矛盾：RM 的偏好表示是一个高维向量 \(\mathbf{h}_{[x,y]}\)，但最终只输出一个标量奖励 \(r_\phi(x,y) = \mathbf{h}_{[x,y]} \mathbf{W}_r\)。当前方法只评估这个标量的排序正确性，无法理解黑盒内部到底学到了什么偏好。
本文要解决什么？ (1) 判断 RM 是否在各偏好维度上有效编码了偏好；(2) 理解 RM 在做奖励预测时依赖哪些维度；(3) 利用这种理解改进对齐质量。
切入角度：借鉴 NLP 中探针任务（probing tasks）评估语言模型表示的思路——如果一个简单线性分类器能从 RM 的偏好表示中成功预测某个维度（如"有害 vs 无害"），就说明 RM 内部确实编码了该维度的偏好。
核心idea一句话：用探针分类器诊断奖励模型的偏好表示，首次实现对 RM 多维偏好捕获能力的细粒度评估和机制分析。

方法详解¶

整体框架¶

分为三个部分：(1) 构建 MRMBench——6 个维度的探针任务基准；(2) 评估 RM——冻结 RM 参数，训练轻量线性分类器在各探针任务上的准确率来量化偏好捕获能力；(3) 推理时探针——利用 K-means 聚类中心计算偏好表示到各维度质心的距离，分析 RM 预测时的维度依赖，并用置信度过滤改进 PPO 训练。

关键设计¶

MRMBench 基准构建
做什么：构建覆盖 6 个偏好维度的探针任务数据集，含 Easy（二分类）和 Hard（三分类）两个版本。
核心思路：从 PKU-SafeRLHF（无害性）和 HelpSteer（其余 5 个维度）数据集中，通过合并原始细粒度标签构建二/三分类任务。例如无害性：Easy 版将原始 {1,2,3} 合并为"有害"、0 为"无害"；Hard 版合并 {2,3} 为"有害"，保留 1 为"轻微有害"，0 为"无害"。每个任务选取约 10K-15K 训练样本和 1K 测试样本，确保类别平衡。
设计动机：Easy 版探测基本捕获能力，Hard 版探测细粒度区分能力。标签合并解决了原始数据的类别不平衡问题（如有帮助性中标签 0 仅占 8%）。
探针评估方法
做什么：冻结 RM，从最后一层 Transformer 的 EOS token 提取偏好表示 \(\mathbf{h}_{[x,y]} \in \mathbb{R}^d\)，训练线性分类器 \(\mathbf{W}_c \in \mathbb{R}^{d \times k}\) 做分类。
核心思路：用标准交叉熵损失 \(-\log(\text{softmax}(\mathbf{h}_{[x,y]} \mathbf{W}_c))\) 训练 1 个 epoch，batch size 128，学习率从 {5e-5, 2e-5, 1e-5} 中选最优。测试集准确率即为该维度的偏好捕获分数。
设计动机：线性分类器的成功意味着偏好信息已线性可分地编码在表示中——这是真正的"捕获"而非死记硬背。RM 参数冻结保证评估的是 RM 自身学到的表示，而非分类器的拟合能力。
推理时探针（Inference-Time Probing）
做什么：在推理时分析 RM 预测依赖的偏好维度，并用其构建置信度指标改进 PPO 训练。
核心思路：对每个维度的验证集按标签分组，用 K-means 聚类得到质心 \(\mathcal{C}_{\text{dim}} = \{\mathbf{c}_1, \ldots, \mathbf{c}_k\}\)。推理时计算新样本 \(\mathbf{h}_{[x',y']}\) 到各维度质心的欧氏距离 \(d(x', y', \mathbf{c}_i) = \|\mathbf{h}_{[x',y']} - \mathbf{c}_i\|_2\)。距离小 → 预测更依赖该维度。动态 RLHF：如果所有维度质心的最小距离 \(d_{\min}\) 超过阈值 \(d_\tau\)（说明 RM 不确定），则丢弃该样本不用于 PPO 更新。
设计动机：当 RM 的预测不依赖任何已知偏好维度时，奖励信号不可靠，用于 PPO 更新会引入噪声甚至导致 reward hacking。选择性丢弃低置信样本可提高对齐质量。

损失函数 / 训练策略¶

探针分类器：交叉熵损失，1 epoch，batch 128。学习率从 {5e-5, 2e-5, 1e-5} 中基于验证集性能选最优。
PPO 对齐：策略学习率 1e-5，价值模型 5e-6，batch 64，mini-batch PPO 4 epochs，cold-start trick（前 30 步仅更新价值模型），reward queue（1K 历史奖励）标准化。
所有实验在 8×A800 GPU 上完成。RM 训练使用 Bradley-Terry 损失，学习率 1e-5，batch 256，训练 1 epoch。
SFT 阶段使用 100K preferred completions 从 Unified-Feedback 数据集，学习率 1e-5。
PPO 训练每 200 步保存 checkpoint，在验证集上选最优 checkpoint 以解决 reward over-optimization。

实验关键数据¶

主实验（MRMBench-Easy 准确率 %）¶

模型	参数	无害性	有帮助	正确性	连贯性	复杂性	冗长性	平均
GPM-LLaMA-3.1-8B	8B	90.9	71.1	72.6	69.9	91.1	82.2	79.6
QRM-LLaMA-3.1-8B-v2	8B	86.5	69.8	70.3	69.6	91.1	79.9	77.9
Eurus-RM-7B	7B	82.2	70.0	72.1	72.7	90.9	82.2	78.4
LLaMA-3.1-8B-Instruct (Baseline)	8B	80.4	66.3	69.4	67.0	89.1	79.1	75.2
UltraRM-13B	13B	54.5	74.5	72.6	90.9	82.2	71.7	74.4

消融实验（推理时探针改进 PPO 对齐）¶

方法	AlpacaEval Win Rate	说明
Vanilla PPO	57.3%	标准 PPO
Random 丢弃	54.3%	随机丢弃等量样本
Inference-Time Probing (\(d_\tau=140\))	62.5%	基于维度距离的选择性丢弃

关键发现¶

RM 确实编码了多维偏好：训练在偏好数据上的 RM 平均探针准确率显著高于未经偏好训练的基线（如 GPM-LLaMA-3.1-8B 79.6% vs LLaMA-3.1-8B-Instruct 75.2%）。
没有 RM 能在所有维度上同时表现优异：UltraRM-13B 在连贯性上高达 90.9% 但无害性仅 54.5%，说明单一标量奖励难以均衡多维偏好，突显多目标优化的必要性。
MRMBench 与对齐质量强相关：各维度 Pearson 相关系数均 > 0.8（\(p < 0.05\)），证明探针准确率是 RM 质量的可靠代理指标。
细粒度偏好更难捕获：MRMBench-Hard 准确率大幅下降（如 GPM-LLaMA-3.1-8B 从 79.6% 降至 67.0%），但无害性和连贯性维度降幅较小，说明这两个维度被现有 RM 建模得较好。
推理时探针有效提升对齐：+5.2 win rate 点（62.5% vs 57.3%），且 Random 丢弃反而更差（54.3%），证明是选择性丢弃而非简单减少样本量起了作用。

亮点与洞察¶

从"评排序"到"评表示"的范式转换：不再只问"RM 排对了吗"，而是问"RM 内部到底理解了什么偏好维度"。这种诊断视角对 RM 开发的指导性远超简单的 pairwise accuracy。
推理时探针的实用性：不需要修改 RM 架构或重新训练，仅用 K-means 聚类就能构建置信度指标并改进 PPO——方法极其轻量，可即插即用到任何 RLHF pipeline。
多维偏好不平衡的发现：揭示了现有 RM 的结构性弱点——它们往往在安全性上建模良好但在正确性上挣扎，为 RM 训练数据的配比提供了明确指导。- 轻量级评估代替端到端验证：相比训 PPO + 评 LLM 的高成本流程，探针评估仅需训 1 epoch 线性分类器，计算成本降低几个数量级，且与端到端性能强相关。

局限性 / 可改进方向¶

仅覆盖 6 个偏好维度，缺少更细粒度的维度（如文化相关的无害性、创造性、事实性等）。附录中提供了扩展指南和公平性/伦理维度的案例研究。
推理时探针的阈值 \(d_\tau\) 需要手动设定，缺乏自适应策略。不同场景可能需要不同阈值。
探针分类器仅用线性层，可能低估 RM 中非线性编码的偏好信息。MLP 探针可能揭示更多。
对齐实验仅用 PPO，未验证在 DPO/RLHF 的其他变体上的效果。
未分析不同训练阶段 RM 偏好表示的演化过程，可能揭示更多关于 RM 训练动力学的洞察。
数据来源限于 PKU-SafeRLHF 和 HelpSteer，标注质量和覆盖度可能影响探针任务的代表性。
推理时探针方法依赖欧氏距离，在高维空间中可能受维度灾难影响，可探索余弦距离或 Mahalanobis 距离。
尚未探索将 MRMBench 用于指导 RM 训练数据的主动采样和配比优化。

评分¶

新颖性: ⭐⭐⭐⭐ 探针评估 RM 的多维偏好是新颖视角，推理时探针实用性强
实验充分度: ⭐⭐⭐⭐ 评估了 15+ 个 RM，PPO 端到端验证，Pearson 相关性分析完善
写作质量: ⭐⭐⭐⭐ 三个 RQ 结构清晰，基准设计动机明确
价值: ⭐⭐⭐⭐ 对 RM 选择、数据配比和对齐改进有直接实用指导