Capturing Individual Human Preferences with Reward Features¶
会议: NeurIPS 2025
arXiv: 2503.17338
代码: 无
领域: 对齐RLHF
关键词: 奖励建模, 个性化偏好, 特征分解, 多评价者学习, 快速适应
一句话总结¶
提出奖励特征模型(RFM):学习共享奖励特征 \(\phi_\theta(x,y)\),每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\),并首次给出多评价者偏好学习的PAC泛化界,证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效,仅30个样本即可快速适应新用户。
研究背景与动机¶
- 领域现状:RLHF训练单一奖励函数 \(r_\theta(x,y)\),假设所有用户偏好相同或可用平均偏好替代。
- 现有痛点:用户偏好存在高度分歧时,单一RM极其低效——51%用户偏好的答案让49%的用户100%不满意。现有个性化方法(非线性MLP适应)在小样本下严重过拟合。
- 核心矛盾:如何用有限数据既学到通用的奖励表征,又能快速适应新用户的个人偏好?理论上:应该增加评价者数量还是每人标注数量?
- 本文要解决什么? 设计可证明有效的个性化奖励建模框架,提供数据收集的理论指导。
- 切入角度:假设每人偏好可分解为共享特征的线性组合,适应阶段变成凸优化→天生适合小样本。从PAC学习论严格分析误差随 \(m, n\) 的变化。
- 核心idea一句话:用共享神经网络学奖励特征、用线性权重做个性化,理论+实验证明"多样评价者 > 深度标注"。
方法详解¶
整体框架¶
RFM将奖励函数分解为 \(r_{\theta, \mathbf{w}_h}(x,y) = \langle \phi_\theta(x,y), \mathbf{w}_h \rangle\)。训练阶段同时优化共享特征 \(\theta\) 和所有训练用户的权重 \(\{\mathbf{w}_h\}\)。适应阶段冻结 \(\phi_\theta\),对新用户仅优化 \(\mathbf{w}_h\)(凸优化=逻辑回归)。
关键设计¶
- 共享奖励特征网络 \(\phi_\theta\):
- 做什么:将(prompt, response)对映射到 \(d\) 维特征空间
- 核心思路:基于Gemma 1.1 2B,替换最后一层为 \(d\) 维输出。所有用户共享backbone
-
设计动机:\(e \gg d\)(backbone参数>>特征维度),确保特征足够通用;\(d\) 小使适应参数少
-
线性个性化权重 \(\mathbf{w}_h\):
- 做什么:每用户 \(d\) 维向量,线性组合特征得到个人化奖励
- 核心思路:固定 \(\phi_\theta\) 后,\(\arg\min_\mathbf{w} \sum_i \ell(\langle \Delta\phi_i, \mathbf{w} \rangle, z_i)\) 是标准逻辑回归(凸优化)
-
设计动机:凸性保证全局最优、低数据需求、有已知泛化界;权重可解释(每维=一个评价准则)
-
PAC泛化界(理论核心):
- 做什么:分析多评价者设置下的泛化误差
- 核心思路:Proposition 1证明误差含两项——用户内噪声(\(\propto 1/n\)可减)和用户间分歧(\(\propto 1/m\)可减);用户间分歧只有增加评价者才能消除
- 设计动机:理论指导数据收集——固定总预算 \(k=mn\),最优策略是 \(n=1, m=k\)(每人一个样本、尽量多人)
训练策略¶
- 最小化Bradley-Terry对数似然,同时优化 \(\theta\) 和所有 \(\{\mathbf{w}_h\}\)
- 基于Gemma 1.1 2B,d=8/32/128
- 适应阶段:仅30-50对样本即可快速个性化
实验关键数据¶
主实验(UltraFeedback合成用户)¶
| 设置 | 基线(无个性化) | RFM (d=32) | 说明 |
|---|---|---|---|
| m=20, p=0.5 | 55.2% | 58.5% | 少评价者 |
| m=60, p=0.5 | 59.1% | 63.8% | 标准设置 |
| m=256, p=0.5 | 66.3% | 73.1% | 多评价者→大幅提升 |
| m=60, p=0.9 | 78.2% | 78.8% | 用户同质→差异小 |
消融/对比实验¶
| 方法 | 准确率 | 说明 |
|---|---|---|
| 基线(无适应) | 55.2% | 单一RM |
| 线性微调基线 | 55.8% | 非用户感知特征→无效 |
| Park等 非线性MLP | 38.5% | n̂=10时严重过拟合 |
| RFM (d=32) | 71.3% | 凸优化适合低数据 |
| Gemini 1.5 Pro 零样本 | 51.2% | 大模型无示例表现差 |
| GPT-4o (n̂=10) | 52.8% | LLM的ICL偏好学习能力弱 |
关键发现¶
- RFM性能随评价者数 \(m\) 显著上升,符合理论 \(O(1/\sqrt{m})\) 速率
- 仅30对样本适应准确率已接近50样本,快速个性化可行
- 非线性适应方法在小样本下崩溃(过拟合),RFM的凸性是关键优势
- LLM的in-context偏好学习能力远弱于小型RFM——符合"凸模型在小数据上鲁棒"的直觉
- 真实奖励模型(8个SOTA RM的留一法交叉验证)也验证了RFM的有效性
亮点与洞察¶
- 首个多评价者PAC界:清晰量化评价者数vs样本数的权衡,为众包标注策略提供理论依据——"标注者多样性比标注深度更重要"
- 线性分解的优雅设计:训练复杂(学高维特征)但适应极简(凸优化),完美契合"离线充足、在线有限"的LLM服务范式
- 可解释+可组合:权重向量 \(\mathbf{w}_h\) 直接反映用户偏好强度,且可用于successor features框架实现无需重训的多目标RL
- 实验中小型凸模型(RFM)在低数据上大幅超越LLM的ICL能力,挑战"大模型万能"的assumption
局限性 / 可改进方向¶
- 线性假设限制了非线性偏好的表达能力(如偏好的交互效应)
- 合成用户实验的生态效度:真实用户偏好是否真能线性分解?
- 仅在2B模型上验证,更大backbone是否带来更好的特征?
- 适应阶段需要用户提供配对偏好标注,在产品场景中获取成本不低
- 未与personalized RLHF的端到端训练比较(仅比较了RM层面)
相关工作与启发¶
- vs 标准RLHF(Ouyang等): 单一RM无法处理用户分歧;RFM是最小的扩展——仅加线性权重
- vs 非线性个性化(Park等): MLP适应在小样本崩溃,RFM的凸性保证了鲁棒性
- vs VPL(Poddar等): VPL也做个性化但不提供数据收集的理论指导
评分¶
- 新颖性: ⭐⭐⭐⭐ 线性decomposition思路不新但理论分析首次给出多评价者学习界
- 实验充分度: ⭐⭐⭐⭐ 合成+真实RM实验全面,但缺乏端到端RLHF验证
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,实验设计巧妙(合成用户可控实验)
- 价值: ⭐⭐⭐⭐ 对RLHF个性化有直接指导意义,"多样评价者"的结论有实践影响