Capturing Individual Human Preferences with Reward Features¶

会议: NeurIPS 2025
arXiv: 2503.17338
代码: 无
领域: 对齐RLHF
关键词: 奖励建模, 个性化偏好, 特征分解, 多评价者学习, 快速适应

一句话总结¶

提出奖励特征模型（RFM）：学习共享奖励特征 \(\phi_\theta(x,y)\)，每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\)，并首次给出多评价者偏好学习的PAC泛化界，证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效，仅30个样本即可快速适应新用户。

研究背景与动机¶

领域现状：RLHF训练单一奖励函数 \(r_\theta(x,y)\)，假设所有用户偏好相同或可用平均偏好替代。
现有痛点：用户偏好存在高度分歧时，单一RM极其低效——51%用户偏好的答案让49%的用户100%不满意。现有个性化方法（非线性MLP适应）在小样本下严重过拟合。
核心矛盾：如何用有限数据既学到通用的奖励表征，又能快速适应新用户的个人偏好？理论上：应该增加评价者数量还是每人标注数量？
本文要解决什么？ 设计可证明有效的个性化奖励建模框架，提供数据收集的理论指导。
切入角度：假设每人偏好可分解为共享特征的线性组合，适应阶段变成凸优化→天生适合小样本。从PAC学习论严格分析误差随 \(m, n\) 的变化。
核心idea一句话：用共享神经网络学奖励特征、用线性权重做个性化，理论+实验证明"多样评价者 > 深度标注"。

方法详解¶

整体框架¶

RFM将奖励函数分解为 \(r_{\theta, \mathbf{w}_h}(x,y) = \langle \phi_\theta(x,y), \mathbf{w}_h \rangle\)。训练阶段同时优化共享特征 \(\theta\) 和所有训练用户的权重 \(\{\mathbf{w}_h\}\)。适应阶段冻结 \(\phi_\theta\)，对新用户仅优化 \(\mathbf{w}_h\)（凸优化=逻辑回归）。

关键设计¶

共享奖励特征网络 \(\phi_\theta\):
做什么：将(prompt, response)对映射到 \(d\) 维特征空间
核心思路：基于Gemma 1.1 2B，替换最后一层为 \(d\) 维输出。所有用户共享backbone
设计动机：\(e \gg d\)（backbone参数>>特征维度），确保特征足够通用；\(d\) 小使适应参数少
线性个性化权重 \(\mathbf{w}_h\):
做什么：每用户 \(d\) 维向量，线性组合特征得到个人化奖励
核心思路：固定 \(\phi_\theta\) 后，\(\arg\min_\mathbf{w} \sum_i \ell(\langle \Delta\phi_i, \mathbf{w} \rangle, z_i)\) 是标准逻辑回归（凸优化）
设计动机：凸性保证全局最优、低数据需求、有已知泛化界；权重可解释（每维=一个评价准则）
PAC泛化界（理论核心）:
做什么：分析多评价者设置下的泛化误差
核心思路：Proposition 1证明误差含两项——用户内噪声（\(\propto 1/n\)可减）和用户间分歧（\(\propto 1/m\)可减）；用户间分歧只有增加评价者才能消除
设计动机：理论指导数据收集——固定总预算 \(k=mn\)，最优策略是 \(n=1, m=k\)（每人一个样本、尽量多人）

训练策略¶

最小化Bradley-Terry对数似然，同时优化 \(\theta\) 和所有 \(\{\mathbf{w}_h\}\)
基于Gemma 1.1 2B，d=8/32/128
适应阶段：仅30-50对样本即可快速个性化

实验关键数据¶

主实验（UltraFeedback合成用户）¶

设置	基线（无个性化）	RFM (d=32)	说明
m=20, p=0.5	55.2%	58.5%	少评价者
m=60, p=0.5	59.1%	63.8%	标准设置
m=256, p=0.5	66.3%	73.1%	多评价者→大幅提升
m=60, p=0.9	78.2%	78.8%	用户同质→差异小

消融/对比实验¶

方法	准确率	说明
基线（无适应）	55.2%	单一RM
线性微调基线	55.8%	非用户感知特征→无效
Park等非线性MLP	38.5%	n̂=10时严重过拟合
RFM (d=32)	71.3%	凸优化适合低数据
Gemini 1.5 Pro 零样本	51.2%	大模型无示例表现差
GPT-4o (n̂=10)	52.8%	LLM的ICL偏好学习能力弱

关键发现¶

RFM性能随评价者数 \(m\) 显著上升，符合理论 \(O(1/\sqrt{m})\) 速率
仅30对样本适应准确率已接近50样本，快速个性化可行
非线性适应方法在小样本下崩溃（过拟合），RFM的凸性是关键优势
LLM的in-context偏好学习能力远弱于小型RFM——符合"凸模型在小数据上鲁棒"的直觉
真实奖励模型（8个SOTA RM的留一法交叉验证）也验证了RFM的有效性

亮点与洞察¶

首个多评价者PAC界：清晰量化评价者数vs样本数的权衡，为众包标注策略提供理论依据——"标注者多样性比标注深度更重要"
线性分解的优雅设计：训练复杂（学高维特征）但适应极简（凸优化），完美契合"离线充足、在线有限"的LLM服务范式
可解释+可组合：权重向量 \(\mathbf{w}_h\) 直接反映用户偏好强度，且可用于successor features框架实现无需重训的多目标RL
实验中小型凸模型（RFM）在低数据上大幅超越LLM的ICL能力，挑战"大模型万能"的assumption

局限性 / 可改进方向¶

线性假设限制了非线性偏好的表达能力（如偏好的交互效应）
合成用户实验的生态效度：真实用户偏好是否真能线性分解？
仅在2B模型上验证，更大backbone是否带来更好的特征？
适应阶段需要用户提供配对偏好标注，在产品场景中获取成本不低
未与personalized RLHF的端到端训练比较（仅比较了RM层面）

评分¶

新颖性: ⭐⭐⭐⭐ 线性decomposition思路不新但理论分析首次给出多评价者学习界
实验充分度: ⭐⭐⭐⭐ 合成+真实RM实验全面，但缺乏端到端RLHF验证
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，实验设计巧妙（合成用户可控实验）
价值: ⭐⭐⭐⭐ 对RLHF个性化有直接指导意义，"多样评价者"的结论有实践影响