Towards Reward Fairness in RLHF: From a Resource Allocation Perspective¶
会议: ACL 2025
arXiv: 2505.23349
代码: https://github.com/shoyua/Towards-Reward-Fairness
领域: LLM 对齐
关键词: RLHF, 奖励公平性, 资源分配, 偏差缓解, 偏好学习
一句话总结¶
将 RLHF 中的各种奖励偏差(长度偏差、类别偏差、社会偏差)统一定义为"奖励不公平"问题,从资源分配视角提出两种偏差无关的缓解方法——公平正则化和公平系数——在不针对特定偏差设计的情况下有效缓解多种偏差,实现更公平的人类偏好对齐。
研究背景与动机¶
- 领域现状:RLHF 通过奖励模型(RM)量化人类偏好来指导 LLM 对齐。但如果奖励模型本身存在偏差——如更长的回答总是获得更高奖励(长度偏差),或某些类别的回答系统性地获得更高奖励(类别偏差)——则对齐的结果也会继承这些偏差。
- 现有痛点:(a) 奖励偏差问题被碎片化地处理——长度偏差用长度正则缓解、类别偏差用类别平衡缓解,每种偏差一个方法,不可扩展;(b) 偏好数据对中"不喜欢的回答"(\(y^l\))可能获得比另一对中"喜欢的回答"(\(y^w\))更高的绝对奖励——导致策略模型朝错误方向优化;(c) 缺乏统一的理论框架理解各种奖励偏差的本质。
- 核心矛盾:Bradley-Terry 模型只保证配对内的相对顺序正确,不保证跨配对的绝对奖励分布公平——但 PPO 等策略优化是基于绝对奖励来指导行为的。
- 本文要解决什么? 用一种偏差无关(bias-agnostic)的方法统一缓解 RLHF 中的各种奖励偏差。
- 切入角度:将偏好学习建模为资源分配问题——奖励是"资源",需要在不同数据组之间公平分配,考虑效用(utility)和公平性(fairness)的权衡。
- 核心idea一句话:奖励是需要公平分配的资源——效用最大化+公平约束。
方法详解¶
整体框架¶
将奖励分布建模为资源分配问题,提出两种公平保证方法:(1) Fairness Regularization——在奖励模型训练中添加公平性正则项,约束不同组之间奖励分布的均匀性;(2) Fairness Coefficient——在策略优化时用公平系数重新加权奖励,使不同组的奖励期望趋于一致。
关键设计¶
- 统一的奖励不公平定义:
- 做什么:将各种偏差统一到一个框架下
- 核心思路:定义奖励公平性为"不同组(按长度/类别/人口统计划分)的奖励分布应该相似"。如果某组系统性地获得更高奖励,则存在不公平
-
设计动机:统一定义允许统一处理——不需要为每种偏差设计特定方法
-
Fairness Regularization(公平正则化):
- 做什么:在训练奖励模型时约束组间分布
- 核心思路:在 Bradley-Terry 损失之外添加正则项,惩罚不同组之间奖励均值的差异
- 适用场景:训练新的奖励模型
-
设计动机:从源头保证奖励分布的公平性
-
Fairness Coefficient(公平系数):
- 做什么:在策略优化中重新加权奖励
- 核心思路:计算每个数据组的奖励偏差方向和大小,使用校正系数对奖励进行归一化
- 适用场景:已有奖励模型,在策略优化阶段校正
- 设计动机:即使奖励模型已有偏差,也可以在使用时校正
损失函数 / 训练策略¶
- 公平正则化:\(\mathcal{L} = \mathcal{L}_{BT} + \lambda \mathcal{L}_{fair}\)
- 公平系数:\(r_{adjusted} = r \cdot w_{group}\),其中 \(w_{group}\) 基于组间分布差异计算
- 在验证(BoN/Best-of-N)和强化学习(PPO)两种场景下验证
实验关键数据¶
主实验¶
| 方法 | 长度偏差缓解(↑) | 类别公平(↑) | 整体对齐质量 |
|---|---|---|---|
| 标准 RLHF | 偏差大 | 偏差大 | 基线 |
| 长度正则(特定方法) | 减少 | 无效果 | 略提升 |
| Fairness Reg(通用) | 减少 | 减少 | 提升 |
| Fairness Coeff(通用) | 减少 | 减少 | 提升 |
关键发现¶
- 两种方法在不针对特定偏差设计的情况下有效缓解多种偏差——验证了"偏差无关"方法的可行性
- 公平约束不损害对齐质量——甚至略有提升——因为减少偏差让模型学到了更准确的人类偏好
- Fairness Coefficient 可以直接应用于已有奖励模型无需重训——更实用
- 在 BoN 和 PPO 两种场景下均有效
亮点与洞察¶
- 从资源分配角度理解奖励偏差是新颖的理论贡献——将 RLHF 偏差与经济学中的公平分配联系起来。
- 偏差无关方法比针对特定偏差的方法更有价值——因为实际中偏差类型不可预知。
- 揭示了 Bradley-Terry 模型的固有缺陷——配对内正确不保证跨配对公平。
- Fairness Coefficient 的"即插即用"特性对实际产品部署有直接价值。
局限性 / 可改进方向¶
- "组"的定义需要先验知识(如知道按长度/类别分组)
- 公平性和效用之间的权衡参数 \(\lambda\) 需要调节
- 未覆盖所有可能的偏差类型
相关工作与启发¶
- vs 长度正则(Park et al.): 只缓解长度偏差;本文通用缓解多种偏差
- vs DeRTa(拒绝训练): DeRTa 解决安全性位置偏差;本文解决奖励公平性偏差——不同层面的对齐改进
- vs DPO: DPO 绕过奖励模型直接做偏好优化,避免了部分奖励偏差问题;但本文的方法也适用于 DPO 隐式奖励
评分¶
- 新颖性: ⭐⭐⭐⭐ 资源分配视角统一理解奖励偏差新颖
- 实验充分度: ⭐⭐⭐⭐ 多种偏差+BoN+PPO+多场景验证
- 写作质量: ⭐⭐⭐⭐ 理论框架清晰
- 价值: ⭐⭐⭐⭐ 对实际 RLHF 部署有实用价值