跳转至

ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation

会议: ICLR2026
arXiv: 2509.21730
代码: GitHub
领域: llm_agent / personalized assistant
关键词: 主动推荐, 个性化, 用户模拟, DPO, 大五人格

一句话总结

提出 ProPerSim 模拟框架和 ProPerAssistant 基线,通过用户-助手模拟环境结合 DPO 偏好学习,开发能同时具备主动性和个性化的 AI 家庭助手。

背景与动机

  1. LLM 助手正从被动应答演变为主动推荐 + 个性化的方向,但两个能力分别独立研究
  2. 只有主动性的助手可能推荐不合时宜或偏好不符的内容(给素食者推荐牛排馆)
  3. 只有个性化的助手仍需用户发起交互,缺乏主动性
  4. 大规模收集真实人类行为数据面临隐私和多样性挑战,模拟是可行替代
  5. 现有主动性研究未考虑个人偏好差异,个性化研究未考虑主动发起交互的能力
  6. 需要将两者统一:在正确时机针对个人偏好提供推荐

方法详解

ProPerSim 模拟框架: - 用户 Agent:基于大五人格 + 6 个属性(年龄、背景、兴趣等)的丰富 persona,生成 32 个不同 persona - 行为生成:基于 Generative Agents 架构 + GPT-4o,10-30 分钟粒度的日常活动 - 评估维度(基于 353 人 AMT 调研筛选):个人偏好匹配、推荐频率、时机恰当性、沟通安全性(共 4 维) - 时间驱动主动性:每 T 时间步助手决定是否推荐(T=2.5min),区别于事件驱动

ProPerAssistant 基线: - 内部状态:结构化记忆(近 10 分钟详细 + 早期压缩为 1h/4h 摘要)+ RAG 检索 top-5 相似历史 - 偏好学习:每个 action 生成 n=2 候选推荐 → 用户评分 → DPO 训练 - 每日仿真结束后用 200 样本 replay buffer 做 DPO 更新

实验关键数据

方法 Day 1 均分 Day 14 均分
No Memory ~2.1 ~2.2
AR Memory ~2.3 ~2.3
ARS Memory ~2.6 ~2.5
ProPerAssistant ~2.2 ~3.3
  • ProPerAssistant 从 2.2/4 提升到 3.3/4,显示持续学习和适应
  • 其他基线无显著随时间改善趋势
  • 人类评估:行为自然度 8.25/10,persona 一致性 8.02/10,评估合理率 90.54%
  • 运行代价:单 persona 约 10 天 A100 + $30 API

亮点

  • 首创主动性 + 个性化统一框架:填补两个独立研究方向的空白
  • 基于大五人格的 32 个 persona 覆盖多样行为模式
  • 时间驱动的主动性定义更贴近真实助手场景
  • 评估指标来自真实用户调研(353 人 AMT),非主观设计

局限性 / 可改进方向

  • 计算成本极高(单 persona 10 天 A100),难以大规模扩展
  • 用户和评估均基于 LLM 模拟,与真实人类行为可能有差距
  • 仅限家庭场景,未扩展到工作、社交等场景
  • DPO 候选数 n=2 受限于计算成本,更多候选可能带来更好对齐

与相关工作的对比

  • vs Proactive Agent (Lu et al.):加入个性化维度,基于 persona 而非通用事件
  • vs Generative Agents (Park et al.):从社会模拟扩展到用户-助手交互模拟
  • vs 个性化方法 (RLHF/RAG):结合主动推荐 + 偏好学习的完整闭环

评分

  • 新颖性: ⭐⭐⭐⭐ 主动+个性化统一是新方向
  • 实验充分度: ⭐⭐⭐⭐ 32 persona、人类评估、多基线对比
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,细节充分
  • 价值: ⭐⭐⭐⭐ 为个人助手研究提供有价值的模拟平台