ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning¶

会议: NeurIPS 2025

arXiv: 2512.25023

代码: 无

领域: LLM对齐

关键词: 奖励模型, 偏好强度, 响应排名, RLHF, 样本效率

一句话总结¶

提出 ResponseRank 方法,通过利用偏好强度的代理信号（如响应时间和标注者一致性）的局部相对差异来鲁棒地学习效用差值,显著提升奖励模型的样本效率。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：RLHF 中的二元偏好选择（A 优于 B）仅传达偏好方向,不包含强度信息。但偏好强度对于不确定性下的决策和偏好模型泛化至关重要：

信息丢失: "强烈偏好苹果" 与 "略微偏好苹果" 在二元标注中无法区分

代理信号不可靠: 响应时间、标注者一致性等代理信号虽可反映强度,但噪声大、存在混杂因素

绝对值无意义: 不同标注者、不同问题的响应时间绝对值不可比较

样本效率低: 不利用强度信息导致需要更多标注数据

方法详解¶

整体框架¶

ResponseRank 通过在精心构建的分层（strata）内比较代理信号的相对差异,将偏好强度信息转化为排名约束,用于训练更准确的奖励模型。

关键设计¶

1. 局部分层策略

将样本按特征分层（如相同 prompt、相同标注者）
仅在同一层内比较代理信号,控制系统性偏差
避免跨层比较带来的混杂效应（如不同 prompt 难度差异）

2. 相对强度排名

在每层中,按代理信号值从大到小排序
代理信号高（如响应时间短、标注者一致性高）→ 强偏好
生成排名约束: 若 $(x_i, y_i^w, y_i^l)$ 的偏好比 $(x_j, y_j^w, y_j^l)$ 强,则 $|r(y_i^w) - r(y_i^l)| > |r(y_j^w) - r(y_j^l)|$

3. 排名约束训练

在标准 BT 损失之上添加排名损失： $$\mathcal{L}_{\text{rank}} = \sum_{(i,j) \in \text{rank-pairs}} \max(0, \Delta_j - \Delta_i + \text{margin})$$

其中 $\Delta_i = r(y_i^w) - r(y_i^l)$ 是效用差值。

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{\text{BT}} + \lambda \mathcal{L}_{\text{rank}}\]

$\mathcal{L}_{\text{BT}}$: 标准 Bradley-Terry 偏好损失
$\mathcal{L}_{\text{rank}}$: 基于偏好强度的排名约束
$\lambda$: 权衡系数

实验关键数据¶

主实验¶

合成偏好学习 (带模拟响应时间):

方法	20% 数据	50% 数据	100% 数据
BT (标准)	0.62	0.71	0.78
Weighted BT	0.65	0.73	0.79
ResponseRank	0.72	0.78	0.82

语言模型奖励学习 (标注者一致性作为代理, RewardBench Accuracy):

方法	Chat	Safety	Reasoning	平均
BT 标准	72.5	80.3	68.2	73.7
Margin-BT	73.8	81.2	69.5	74.8
ResponseRank	76.2	83.5	72.1	77.3

消融实验¶

不同代理信号质量下的鲁棒性:

噪声水平	BT	Weighted BT	ResponseRank
无噪声	0.78	0.85	0.86
低噪声	0.78	0.82	0.84
中噪声	0.78	0.78	0.82
高噪声	0.78	0.72	0.80

关键发现¶

ResponseRank 仅用 20% 数据即达到标准BT使用 100% 数据的性能水平,样本效率提升 5 倍
局部分层是鲁棒性的关键——Weighted BT 在高噪声下反而比标准BT差
Pearson Distance Correlation (PDC) 指标能有效区分序数准确性和基数效用学习
在 RL 控制任务中,利用模拟回报作为代理信号同样有效

亮点与洞察¶

最小假设: 仅假设代理信号在局部有效,不对其全局分布做假设
鲁棒设计: 噪声越大时相比 Weighted BT 优势越明显
新指标 PDC: Pearson Distance Correlation 分离了序数和基数学习

局限与展望¶

分层策略需要足够多的同层样本,小规模数据集可能不适用
代理信号的选择（响应时间 vs 一致性 vs 其他）缺乏系统比较
排名约束仅考虑成对关系,未利用多样本的全序信息
与 DPO 等直接偏好优化方法的集成未探索

评分¶

⭐ 创新性: 8/10 — 局部分层+相对排名的设计简洁有效
⭐ 实用性: 8/10 — 5倍样本效率提升对实际标注很有价值
⭐ 写作质量: 8/10 — 实验涵盖合成、语言、RL三个场景