跳转至

Capturing Individual Human Preferences with Reward Features

会议: NeurIPS 2025
arXiv: 2503.17338
代码: 无
领域: 对齐RLHF
关键词: 奖励建模, 个性化偏好, 特征分解, 多评价者学习, 快速适应

一句话总结

提出奖励特征模型(RFM):学习共享奖励特征 \(\phi_\theta(x,y)\),每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\),并首次给出多评价者偏好学习的PAC泛化界,证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效,仅30个样本即可快速适应新用户。

研究背景与动机

  1. 领域现状:RLHF训练单一奖励函数 \(r_\theta(x,y)\),假设所有用户偏好相同或可用平均偏好替代。
  2. 现有痛点:用户偏好存在高度分歧时,单一RM极其低效——51%用户偏好的答案让49%的用户100%不满意。现有个性化方法(非线性MLP适应)在小样本下严重过拟合。
  3. 核心矛盾:如何用有限数据既学到通用的奖励表征,又能快速适应新用户的个人偏好?理论上:应该增加评价者数量还是每人标注数量?
  4. 本文要解决什么? 设计可证明有效的个性化奖励建模框架,提供数据收集的理论指导。
  5. 切入角度:假设每人偏好可分解为共享特征的线性组合,适应阶段变成凸优化→天生适合小样本。从PAC学习论严格分析误差随 \(m, n\) 的变化。
  6. 核心idea一句话:用共享神经网络学奖励特征、用线性权重做个性化,理论+实验证明"多样评价者 > 深度标注"。

方法详解

整体框架

RFM将奖励函数分解为 \(r_{\theta, \mathbf{w}_h}(x,y) = \langle \phi_\theta(x,y), \mathbf{w}_h \rangle\)。训练阶段同时优化共享特征 \(\theta\) 和所有训练用户的权重 \(\{\mathbf{w}_h\}\)。适应阶段冻结 \(\phi_\theta\),对新用户仅优化 \(\mathbf{w}_h\)(凸优化=逻辑回归)。

关键设计

  1. 共享奖励特征网络 \(\phi_\theta\):
  2. 做什么:将(prompt, response)对映射到 \(d\) 维特征空间
  3. 核心思路:基于Gemma 1.1 2B,替换最后一层为 \(d\) 维输出。所有用户共享backbone
  4. 设计动机:\(e \gg d\)(backbone参数>>特征维度),确保特征足够通用;\(d\) 小使适应参数少

  5. 线性个性化权重 \(\mathbf{w}_h\):

  6. 做什么:每用户 \(d\) 维向量,线性组合特征得到个人化奖励
  7. 核心思路:固定 \(\phi_\theta\) 后,\(\arg\min_\mathbf{w} \sum_i \ell(\langle \Delta\phi_i, \mathbf{w} \rangle, z_i)\) 是标准逻辑回归(凸优化)
  8. 设计动机:凸性保证全局最优、低数据需求、有已知泛化界;权重可解释(每维=一个评价准则)

  9. PAC泛化界(理论核心):

  10. 做什么:分析多评价者设置下的泛化误差
  11. 核心思路:Proposition 1证明误差含两项——用户内噪声(\(\propto 1/n\)可减)和用户间分歧(\(\propto 1/m\)可减);用户间分歧只有增加评价者才能消除
  12. 设计动机:理论指导数据收集——固定总预算 \(k=mn\),最优策略是 \(n=1, m=k\)(每人一个样本、尽量多人)

训练策略

  • 最小化Bradley-Terry对数似然,同时优化 \(\theta\) 和所有 \(\{\mathbf{w}_h\}\)
  • 基于Gemma 1.1 2B,d=8/32/128
  • 适应阶段:仅30-50对样本即可快速个性化

实验关键数据

主实验(UltraFeedback合成用户)

设置 基线(无个性化) RFM (d=32) 说明
m=20, p=0.5 55.2% 58.5% 少评价者
m=60, p=0.5 59.1% 63.8% 标准设置
m=256, p=0.5 66.3% 73.1% 多评价者→大幅提升
m=60, p=0.9 78.2% 78.8% 用户同质→差异小

消融/对比实验

方法 准确率 说明
基线(无适应) 55.2% 单一RM
线性微调基线 55.8% 非用户感知特征→无效
Park等 非线性MLP 38.5% n̂=10时严重过拟合
RFM (d=32) 71.3% 凸优化适合低数据
Gemini 1.5 Pro 零样本 51.2% 大模型无示例表现差
GPT-4o (n̂=10) 52.8% LLM的ICL偏好学习能力弱

关键发现

  • RFM性能随评价者数 \(m\) 显著上升,符合理论 \(O(1/\sqrt{m})\) 速率
  • 仅30对样本适应准确率已接近50样本,快速个性化可行
  • 非线性适应方法在小样本下崩溃(过拟合),RFM的凸性是关键优势
  • LLM的in-context偏好学习能力远弱于小型RFM——符合"凸模型在小数据上鲁棒"的直觉
  • 真实奖励模型(8个SOTA RM的留一法交叉验证)也验证了RFM的有效性

亮点与洞察

  • 首个多评价者PAC界:清晰量化评价者数vs样本数的权衡,为众包标注策略提供理论依据——"标注者多样性比标注深度更重要"
  • 线性分解的优雅设计:训练复杂(学高维特征)但适应极简(凸优化),完美契合"离线充足、在线有限"的LLM服务范式
  • 可解释+可组合:权重向量 \(\mathbf{w}_h\) 直接反映用户偏好强度,且可用于successor features框架实现无需重训的多目标RL
  • 实验中小型凸模型(RFM)在低数据上大幅超越LLM的ICL能力,挑战"大模型万能"的assumption

局限性 / 可改进方向

  • 线性假设限制了非线性偏好的表达能力(如偏好的交互效应)
  • 合成用户实验的生态效度:真实用户偏好是否真能线性分解?
  • 仅在2B模型上验证,更大backbone是否带来更好的特征?
  • 适应阶段需要用户提供配对偏好标注,在产品场景中获取成本不低
  • 未与personalized RLHF的端到端训练比较(仅比较了RM层面)

相关工作与启发

  • vs 标准RLHF(Ouyang等): 单一RM无法处理用户分歧;RFM是最小的扩展——仅加线性权重
  • vs 非线性个性化(Park等): MLP适应在小样本崩溃,RFM的凸性保证了鲁棒性
  • vs VPL(Poddar等): VPL也做个性化但不提供数据收集的理论指导

评分

  • 新颖性: ⭐⭐⭐⭐ 线性decomposition思路不新但理论分析首次给出多评价者学习界
  • 实验充分度: ⭐⭐⭐⭐ 合成+真实RM实验全面,但缺乏端到端RLHF验证
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,实验设计巧妙(合成用户可控实验)
  • 价值: ⭐⭐⭐⭐ 对RLHF个性化有直接指导意义,"多样评价者"的结论有实践影响