跳转至

Whose Boat Does it Float? Improving Personalization in Preference Optimization

会议: ACL 2025
arXiv: 2501.11549
代码: https://github.com/Pinafore/alignment-personalization
领域: LLM 对齐 / 个性化偏好优化
关键词: personalization, preference optimization, abductive reasoning, persona inference, DPO

一句话总结

提出"溯因推理"视角的偏好个性化方法:先用 LLM 推断偏好 chosen/rejected 回答背后的用户画像(Persona Inference),再用画像增强的偏好数据训练模型(Persona Tailoring),显著提升模型对不同用户需求的个性化适配能力。

研究背景与动机

  • 当前 LLM 对齐方法(如 DPO)使用偏好数据训练模型,学习生成类似多数人 chosen 的回答、远离 rejected 的回答
  • 核心问题:偏好数据只告诉我们"哪个回答更好",但不表达"为什么"某些用户更偏好该回答
  • 现实中,一些用户确实会合理地偏好 rejected 回答,只是原因不那么常见
  • 例如:"如何准备烘焙义卖?"的两个回答中,多数人偏好简洁的回答,但注重实际操作的用户可能偏好包含包装物流细节的 rejected 回答
  • 标准 DPO 无法适配用户个性化需求:
  • 对一个"戒酒"用户推荐"雇佣调酒师"
  • 对一个"只要精简列表"的用户给出 10 个方案
  • 现有偏好数据格式缺少 persona 信息来解释用户偏好的原因,限制了个性化训练

方法详解

整体框架

方法分为两个阶段: 1. Persona Inference (PI):对偏好数据中的 chosen 和 rejected 回答,用溯因推理推断可能偏好它们的用户画像 2. Persona Tailoring (PT):用画像增强的偏好数据训练模型,使其能根据用户画像生成个性化回答

关键设计

Persona Inference (PI)

  • 任务定义:给定 prompt p 和两个回答 r₁, r₂,推断出一个用户画像 𝒫₁,使得该画像描述的用户会偏好 r₁ 而非 r₂
  • 通过交换 r₁ 和 r₂ 可分别得到 chosen persona 𝒫_C 和 rejected persona 𝒫_R
  • 溯因推理:推断隐藏的上下文来解释观测到的结果,类似于"最佳解释推理"
  • 画像格式:"The user is [attribute] and prefers [explanation of preference]"
  • 仅推断高层次特征(信息需求、兴趣、性格等),不涉及受保护属性(种族等)以避免刻板印象
  • 推理模型:测试了 9 个 LLM(Claude Sonnet/Haiku/Opus, GPT-3.5/4/4o, LLaMA-3.1 8B/70B/405B),使用 5-shot prompting
  • 数据清洗:排除 BeaverTails 和 SHP 中故意低质量/有害的 rejected 回答

四个评估数据集

  • BeaverTails:建议类查询 + 候选回答,覆盖 14 个伤害类别
  • SHP (Stanford Human Preferences):Reddit 帖子问题 + 用户写的回答
  • Anthropic HHH:人类输入 + 助手回答的真实对话
  • Mnemonic:词汇学习的关键词记忆法偏好

Persona Tailoring (PT)

  • 使用 LLaMA-405B(最佳开源模型)为偏好数据添加 PI 推断的 persona
  • 训练 LLaMA-8B 在增强数据上学习反向任务:给定 prompt + persona → 生成个性化回答
  • 三种训练/生成策略
  • PT_fs(Few-shot Prompting):5-shot 提示 LLaMA-8B
  • PT_sft(Supervised Fine-tuning):在增强数据上微调
  • PT_dpo(DPO):将 persona + prompt 作为输入,chosen/rejected 作为偏好对进行 DPO 训练

损失函数 / 训练策略

  • PT_dpo 使用标准 DPO 损失:
  • 每个训练样本:输入 = persona + prompt,chosen = persona 对应的偏好回答,rejected = 对方画像偏好的回答
  • 对 chosen persona:chosen=r_C, rejected=r_R
  • 对 rejected persona:chosen=r_R, rejected=r_C
  • 核心创新:训练数据中同时包含 chosen 和 rejected persona 的样本,使模型理解"不同用户偏好不同回答"的概念

实验关键数据

PI 质量评估

PI 准确性(GPT-4o judge,与人类标注 90% 一致)

  • LLaMA-405B 达到 91% 准确率(推断的 persona 确实能解释对应的偏好)
  • Chosen persona 准确率略高于 rejected persona(差距对最佳模型仅 0.06)
  • Mnemonic 数据集准确率最低(需要推断学习偏好,本身更难)

PI 质量比较

  • GPT-4o 评判 chosen 和 rejected persona 质量:除 BeaverTails 外,两者质量接近(win rate 差仅 0.1)
  • 说明 rejected persona 虽然不常见,但同样反映了合理的用户需求

人类标注验证(3 名 PhD)

  • Plausibility(合理性):chosen 和 rejected persona 都被判定为合理存在的用户
  • Applicability(适用性):rejected persona 适用性略低,但仍然有效
  • Harmfulness(有害性):极少被判定为有害
  • Overfitting(过拟合):极少直接重复 prompt 或回答的文本

PT 个性化评估

主要结果

方法 个性化提升
标准 DPO(无 persona) 差(无法适配推理时提供的 persona)
PT_fs(few-shot) 显著提升
PT_sft(SFT) 显著提升
PT_dpo 最强提升
  • PT_dpo 在 chosen persona 上表现优于 DPO,在 rejected persona 上优势更加明显
  • Rejected persona 评估上 PT_dpo 比 DPO 平均提升 66% 个性化得分
  • 说明 PT 特别能帮助持有不常见偏好的用户

真实用户评估

  • 8 名用户撰写了 144 个多样化 persona,分别评估 PT_dpo 和 DPO 的回答
  • 用户一致认为 PT_dpo 更好地个性化适配了他们自己写的 persona
  • 证明在 LLM 推断的 persona 上训练的模型可以泛化到真实用户自定义的需求

关键发现

  1. Rejected 回答并非无价值:存在合理的用户群体真正偏好 rejected 回答,这些用户的需求不应被忽视
  2. Persona 数据增强极为有效:简单地在偏好数据中添加推断的 persona,就能大幅提升个性化能力
  3. Rejected persona 形成更难的个性化评估:它们代表不常见但合理的需求,是更严格的测试
  4. PI 也是偏好数据分析工具:通过分析 chosen/rejected persona 的显著词汇,可以揭示数据集的隐含偏见(如 BeaverTails 的冗长偏好)

亮点与洞察

  1. 溯因推理视角新颖:不问"哪个回答更好",而问"什么时候、为什么、对谁更好"
  2. 简洁实用的流程:PI + PT 两步法清晰,不需要收集新的用户数据,仅用 LLM 推断即可
  3. 双重价值:persona 既可用于个性化训练,也可用于偏好数据的内容分析
  4. 揭示了标准偏好学习的根本缺陷:假设"chosen 普遍更好"忽略了个体差异
  5. 实验设计严谨:包含 GPT-4o 自动评估 + 人类标注验证 + 真实用户写入 persona 的端到端评估

局限性 / 可改进方向

  1. PI 依赖强大的 LLM(如 LLaMA-405B),开源小模型的推断质量可能不够
  2. Persona 格式受限于单句描述:复杂用户需求可能无法用一句话充分表达
  3. 不适用于所有 rejected 回答:有害或低质量的 rejected 回答对应的 persona 不应被模型学习
  4. 未探索多轮对话中的 persona 动态变化
  5. GPT/Claude 的 persona 输出受 terms-of-service 限制,无法直接用于训练
  6. Mnemonic 等领域特定数据集上 PI 准确率较低,可能需要领域专家直接标注

相关工作与启发

  • 偏好优化:DPO (Rafailov et al., 2024), RLHF (Ouyang et al., 2022)
  • 个性化 LLM:Lee et al. (2024) 关于偏好数据缺少 persona 的讨论,Kirk et al. (2024) 关于用户多样性
  • 溯因推理:Peirce (1974), Zhao et al. (2024), Balepur et al. (2025a)
  • 启发:(1) 可将此方法扩展到 RLHF 的 reward modeling 中,训练 persona-aware 的奖励模型;(2) 可结合用户交互历史自动推断 persona;(3) rejected persona 可用于发现和修复数据集偏见

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 溯因推理 + persona 增强偏好数据的思路原创性强
  • 技术深度: ⭐⭐⭐⭐ — 方法简洁但有效,理论动机清晰
  • 实验充分度: ⭐⭐⭐⭐⭐ — 多数据集、多模型、多策略、自动+人工+真实用户评估
  • 实用价值: ⭐⭐⭐⭐⭐ — 个性化对齐需求强烈,方法可直接应用
  • 写作质量: ⭐⭐⭐⭐⭐ — 论文结构精巧,图示和示例极具说服力
  • 综合评分: 9.0/10