跳转至

SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs

会议: ACL 2025
arXiv: 2506.05598
领域: NLP 理解
关键词: 个性化奖励模型, 用户画像合成, LLM-as-a-Judge, 偏好建模, 多元对齐

一句话总结

提出SynthesizeMe,通过bootstrap推理→合成用户画像→筛选信息性示例三步流程,无需微调即可为个性化奖励模型构建有效prompt,在Chatbot Arena上提升LLM-as-a-Judge个性化准确率4.4%。

研究背景与动机

  • 核心矛盾:主流LLM对齐依赖聚合偏好数据,但用户偏好因文化、价值观、风格等差异显著,不存在统一标准
  • 个性化奖励模型挑战
  • 数据稀缺:每个用户通常仅有5-15对偏好数据
  • 偏好归因困难:成对偏好是隐含奖励函数的不确定观测,难以判断用户选择的真实原因(内容vs表达)
  • 过拟合风险:有限数据上容易过拟合
  • 与已有工作的区别:Rewarded Soups、Personalized Soups等方法需要预定义偏好类别;SynthesizeMe无需此类先验约束,自动发现用户画像

方法详解

整体框架

SynthesizeMe三步流程: 1. Bootstrap推理:生成并验证偏好解释 2. 合成用户画像:从推理中归纳用户人格特征 3. 筛选信息性示例:以画像为上下文选取最有区分性的历史偏好作为few-shot示例

关键设计

Step 1: Bootstrap Reasoning - 对用户训练偏好数据,让LLM做CoT预测:解释哪个回复更受偏好及原因 - 仅保留预测正确的推理(即通过验证集检验的假设) - 随机子采样n=10次,选验证集表现最优的推理集合ℛ*

Step 2: Synthesize Persona - 将Step 1的推理和偏好输入LLM,合成自然语言用户画像π - 使用DSPy MIPROv2优化器优化画像生成prompt Θ - 优化后的Θ在不同模型和数据集间迁移性良好(在PRISM上优化,在Chatbot Arena上也有效)

Step 3: Extract Informative Examples - 以画像π为上下文再次bootstrap,选取最有信息量的示例 - m=10次试验,选验证集最优的示例集合ℛ' - 最终输出:画像π + 示例集ℛ' → 组成个性化prompt

PersonalRewardBench构建 - 来源:Chatbot Arena(131用户,1338对话)+ PRISM(723用户,16705偏好对) - 三阶段过滤:用户过滤(≥5对偏好)→ 可个性化过滤(GPT-4o-mini评分)→ 质量/共识过滤(5个LLM-judge高分歧的样本)

实验关键数据

主实验

Chatbot Arena结果(Llama 3.3 70B): | 方法 | 准确率 | |------|--------| | Default LLM-as-a-Judge | 56.69 ± 4.05% | | Memory baseline | 57.57 ± 4.05% | | SM: Just Demos | 61.97 ± 3.96% | | SM: Personas + Demos | 61.97 ± 3.96% |

  • SynthesizeMe在Chatbot Arena上最高提升5.28%(从56.69%到61.97%)

PRISM结果(Llama 3.3 70B): | 方法 | 准确率 | |------|--------| | Default | 54.35 ± 1.24% | | Demographics | 53.89 ± 1.24% | | SM: Just Demos | 57.76 ± 1.25% | | SM: Personas + Demos | 56.99 ± 1.25% |

  • PRISM上最高提升3.41%

Distill Θ效果(Llama 3.1 8B): - Personas + Demos + Distill Θ在Chatbot Arena达61.62%,在8B模型上接近70B基线

关键发现

  • 示例比画像更重要:Just Demos通常≥Personas + Demos,表明信息性示例是关键组件
  • 画像的核心价值在于指导筛选示例:画像+示例组合的优势来自画像帮助识别哪些示例最相关
  • 跨模型迁移性:在一个模型上生成的prompt在其他模型上同样有效
  • 人口统计信息无用:PRISM上Demographics甚至不如Default,说明表层身份信息不足以个性化
  • Prompt优化可蒸馏:在PRISM上优化的Θ直接迁移到Chatbot Arena有效

亮点与洞察

  1. 无需微调:纯in-context方法,兼容API-only模型,实用性极高
  2. 可解释性:画像为自然语言描述,用户可理解和审查
  3. 验证-过滤机制:通过验证集拒绝不良推理,有效解决偏好归因不确定性
  4. PersonalRewardBench:首个系统化的个性化奖励模型benchmark,涵盖854用户
  5. 设计哲学:从少量偏好数据中"合成"用户特征,而非要求用户定义自身偏好

局限性

  • 偏好对数量仍有限,PersonalRewardBench中位数仅7-22对
  • 合成画像可能存在偏差或幻觉,尤其当训练偏好不具代表性时
  • 方法依赖LLM的推理能力,小模型(如3B)表现明显差于大模型
  • 未探索画像随时间演变的动态更新机制
  • 计算成本:每用户需多次bootstrap和验证

相关工作

  • 个性化对齐:Rewarded Soups(权重插值)、GPO(组偏好优化)、VPL(变分偏好学习)、PAL(原型偏好组)
  • LLM-as-a-Judge:Chatbot Arena评估范式
  • Prompt优化:DSPy MIPROv2自动优化
  • 个性化推荐:用户建模、偏好学习

评分

  • 新颖性: ⭐⭐⭐⭐ — 从偏好数据自动合成画像的思路新颖
  • 技术深度: ⭐⭐⭐⭐ — Bootstrap+验证+画像合成流程设计完整
  • 实验充分性: ⭐⭐⭐⭐ — 多模型多数据集评估,含可解释性和迁移性分析
  • 实用性: ⭐⭐⭐⭐⭐ — 无需微调,直接提升API模型的个性化能力
  • 总评: ⭐⭐⭐⭐ — 实用导向的个性化方法,benchmark贡献有价值