Towards Reward Fairness in RLHF: From a Resource Allocation Perspective¶

会议: ACL 2025
arXiv: 2505.23349
代码: https://github.com/shoyua/Towards-Reward-Fairness
领域: LLM 对齐
关键词: RLHF, 奖励公平性, 资源分配, 偏差缓解, 偏好学习

一句话总结¶

将 RLHF 中的各种奖励偏差（长度偏差、类别偏差、社会偏差）统一定义为"奖励不公平"问题，从资源分配视角提出两种偏差无关的缓解方法——公平正则化和公平系数——在不针对特定偏差设计的情况下有效缓解多种偏差，实现更公平的人类偏好对齐。

研究背景与动机¶

领域现状：RLHF 通过奖励模型（RM）量化人类偏好来指导 LLM 对齐。但如果奖励模型本身存在偏差——如更长的回答总是获得更高奖励（长度偏差），或某些类别的回答系统性地获得更高奖励（类别偏差）——则对齐的结果也会继承这些偏差。
现有痛点：(a) 奖励偏差问题被碎片化地处理——长度偏差用长度正则缓解、类别偏差用类别平衡缓解，每种偏差一个方法，不可扩展；(b) 偏好数据对中"不喜欢的回答"（\(y^l\)）可能获得比另一对中"喜欢的回答"（\(y^w\)）更高的绝对奖励——导致策略模型朝错误方向优化；(c) 缺乏统一的理论框架理解各种奖励偏差的本质。
核心矛盾：Bradley-Terry 模型只保证配对内的相对顺序正确，不保证跨配对的绝对奖励分布公平——但 PPO 等策略优化是基于绝对奖励来指导行为的。
本文要解决什么？ 用一种偏差无关（bias-agnostic）的方法统一缓解 RLHF 中的各种奖励偏差。
切入角度：将偏好学习建模为资源分配问题——奖励是"资源"，需要在不同数据组之间公平分配，考虑效用（utility）和公平性（fairness）的权衡。
核心idea一句话：奖励是需要公平分配的资源——效用最大化+公平约束。

方法详解¶

整体框架¶

将奖励分布建模为资源分配问题，提出两种公平保证方法：(1) Fairness Regularization——在奖励模型训练中添加公平性正则项，约束不同组之间奖励分布的均匀性；(2) Fairness Coefficient——在策略优化时用公平系数重新加权奖励，使不同组的奖励期望趋于一致。

关键设计¶

统一的奖励不公平定义:
做什么：将各种偏差统一到一个框架下
核心思路：定义奖励公平性为"不同组（按长度/类别/人口统计划分）的奖励分布应该相似"。如果某组系统性地获得更高奖励，则存在不公平
设计动机：统一定义允许统一处理——不需要为每种偏差设计特定方法
Fairness Regularization（公平正则化）:
做什么：在训练奖励模型时约束组间分布
核心思路：在 Bradley-Terry 损失之外添加正则项，惩罚不同组之间奖励均值的差异
适用场景：训练新的奖励模型
设计动机：从源头保证奖励分布的公平性
Fairness Coefficient（公平系数）:
做什么：在策略优化中重新加权奖励
核心思路：计算每个数据组的奖励偏差方向和大小，使用校正系数对奖励进行归一化
适用场景：已有奖励模型，在策略优化阶段校正
设计动机：即使奖励模型已有偏差，也可以在使用时校正

损失函数 / 训练策略¶

公平正则化：\(\mathcal{L} = \mathcal{L}_{BT} + \lambda \mathcal{L}_{fair}\)
公平系数：\(r_{adjusted} = r \cdot w_{group}\)，其中 \(w_{group}\) 基于组间分布差异计算
在验证（BoN/Best-of-N）和强化学习（PPO）两种场景下验证

实验关键数据¶

主实验¶

方法	长度偏差缓解(↑)	类别公平(↑)	整体对齐质量
标准 RLHF	偏差大	偏差大	基线
长度正则（特定方法）	减少	无效果	略提升
Fairness Reg（通用）	减少	减少	提升
Fairness Coeff（通用）	减少	减少	提升

关键发现¶

两种方法在不针对特定偏差设计的情况下有效缓解多种偏差——验证了"偏差无关"方法的可行性
公平约束不损害对齐质量——甚至略有提升——因为减少偏差让模型学到了更准确的人类偏好
Fairness Coefficient 可以直接应用于已有奖励模型无需重训——更实用
在 BoN 和 PPO 两种场景下均有效

亮点与洞察¶

从资源分配角度理解奖励偏差是新颖的理论贡献——将 RLHF 偏差与经济学中的公平分配联系起来。
偏差无关方法比针对特定偏差的方法更有价值——因为实际中偏差类型不可预知。
揭示了 Bradley-Terry 模型的固有缺陷——配对内正确不保证跨配对公平。
Fairness Coefficient 的"即插即用"特性对实际产品部署有直接价值。

局限性 / 可改进方向¶

"组"的定义需要先验知识（如知道按长度/类别分组）
公平性和效用之间的权衡参数 \(\lambda\) 需要调节
未覆盖所有可能的偏差类型

评分¶

新颖性: ⭐⭐⭐⭐ 资源分配视角统一理解奖励偏差新颖
实验充分度: ⭐⭐⭐⭐ 多种偏差+BoN+PPO+多场景验证
写作质量: ⭐⭐⭐⭐ 理论框架清晰
价值: ⭐⭐⭐⭐ 对实际 RLHF 部署有实用价值