SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs¶

会议: ACL 2025
arXiv: 2506.05598
领域: NLP 理解
关键词: 个性化奖励模型, 用户画像合成, LLM-as-a-Judge, 偏好建模, 多元对齐

一句话总结¶

提出SynthesizeMe，通过bootstrap推理→合成用户画像→筛选信息性示例三步流程，无需微调即可为个性化奖励模型构建有效prompt，在Chatbot Arena上提升LLM-as-a-Judge个性化准确率4.4%。

研究背景与动机¶

核心矛盾：主流LLM对齐依赖聚合偏好数据，但用户偏好因文化、价值观、风格等差异显著，不存在统一标准
个性化奖励模型挑战：
数据稀缺：每个用户通常仅有5-15对偏好数据
偏好归因困难：成对偏好是隐含奖励函数的不确定观测，难以判断用户选择的真实原因（内容vs表达）
过拟合风险：有限数据上容易过拟合
与已有工作的区别：Rewarded Soups、Personalized Soups等方法需要预定义偏好类别；SynthesizeMe无需此类先验约束，自动发现用户画像

方法详解¶

整体框架¶

SynthesizeMe三步流程： 1. Bootstrap推理：生成并验证偏好解释 2. 合成用户画像：从推理中归纳用户人格特征 3. 筛选信息性示例：以画像为上下文选取最有区分性的历史偏好作为few-shot示例

关键设计¶

Step 1: Bootstrap Reasoning - 对用户训练偏好数据，让LLM做CoT预测：解释哪个回复更受偏好及原因 - 仅保留预测正确的推理（即通过验证集检验的假设） - 随机子采样n=10次，选验证集表现最优的推理集合ℛ*

Step 2: Synthesize Persona - 将Step 1的推理和偏好输入LLM，合成自然语言用户画像π - 使用DSPy MIPROv2优化器优化画像生成prompt Θ - 优化后的Θ在不同模型和数据集间迁移性良好（在PRISM上优化，在Chatbot Arena上也有效）

Step 3: Extract Informative Examples - 以画像π为上下文再次bootstrap，选取最有信息量的示例 - m=10次试验，选验证集最优的示例集合ℛ' - 最终输出：画像π + 示例集ℛ' → 组成个性化prompt

PersonalRewardBench构建 - 来源：Chatbot Arena（131用户，1338对话）+ PRISM（723用户，16705偏好对） - 三阶段过滤：用户过滤（≥5对偏好）→ 可个性化过滤（GPT-4o-mini评分）→ 质量/共识过滤（5个LLM-judge高分歧的样本）

实验关键数据¶

主实验¶

Chatbot Arena结果（Llama 3.3 70B）： | 方法 | 准确率 | |------|--------| | Default LLM-as-a-Judge | 56.69 ± 4.05% | | Memory baseline | 57.57 ± 4.05% | | SM: Just Demos | 61.97 ± 3.96% | | SM: Personas + Demos | 61.97 ± 3.96% |

SynthesizeMe在Chatbot Arena上最高提升5.28%（从56.69%到61.97%）

PRISM结果（Llama 3.3 70B）： | 方法 | 准确率 | |------|--------| | Default | 54.35 ± 1.24% | | Demographics | 53.89 ± 1.24% | | SM: Just Demos | 57.76 ± 1.25% | | SM: Personas + Demos | 56.99 ± 1.25% |

PRISM上最高提升3.41%

Distill Θ效果（Llama 3.1 8B）： - Personas + Demos + Distill Θ在Chatbot Arena达61.62%，在8B模型上接近70B基线

关键发现¶

示例比画像更重要：Just Demos通常≥Personas + Demos，表明信息性示例是关键组件
画像的核心价值在于指导筛选示例：画像+示例组合的优势来自画像帮助识别哪些示例最相关
跨模型迁移性：在一个模型上生成的prompt在其他模型上同样有效
人口统计信息无用：PRISM上Demographics甚至不如Default，说明表层身份信息不足以个性化
Prompt优化可蒸馏：在PRISM上优化的Θ直接迁移到Chatbot Arena有效

亮点与洞察¶

无需微调：纯in-context方法，兼容API-only模型，实用性极高
可解释性：画像为自然语言描述，用户可理解和审查
验证-过滤机制：通过验证集拒绝不良推理，有效解决偏好归因不确定性
PersonalRewardBench：首个系统化的个性化奖励模型benchmark，涵盖854用户
设计哲学：从少量偏好数据中"合成"用户特征，而非要求用户定义自身偏好

局限性¶

偏好对数量仍有限，PersonalRewardBench中位数仅7-22对
合成画像可能存在偏差或幻觉，尤其当训练偏好不具代表性时
方法依赖LLM的推理能力，小模型（如3B）表现明显差于大模型
未探索画像随时间演变的动态更新机制
计算成本：每用户需多次bootstrap和验证

评分¶

新颖性: ⭐⭐⭐⭐ — 从偏好数据自动合成画像的思路新颖
技术深度: ⭐⭐⭐⭐ — Bootstrap+验证+画像合成流程设计完整
实验充分性: ⭐⭐⭐⭐ — 多模型多数据集评估，含可解释性和迁移性分析
实用性: ⭐⭐⭐⭐⭐ — 无需微调，直接提升API模型的个性化能力
总评: ⭐⭐⭐⭐ — 实用导向的个性化方法，benchmark贡献有价值