ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation¶
会议: ICLR2026
arXiv: 2509.21730
代码: GitHub
领域: llm_agent / personalized assistant
关键词: 主动推荐, 个性化, 用户模拟, DPO, 大五人格
一句话总结¶
提出 ProPerSim 模拟框架和 ProPerAssistant 基线,通过用户-助手模拟环境结合 DPO 偏好学习,开发能同时具备主动性和个性化的 AI 家庭助手。
背景与动机¶
- LLM 助手正从被动应答演变为主动推荐 + 个性化的方向,但两个能力分别独立研究
- 只有主动性的助手可能推荐不合时宜或偏好不符的内容(给素食者推荐牛排馆)
- 只有个性化的助手仍需用户发起交互,缺乏主动性
- 大规模收集真实人类行为数据面临隐私和多样性挑战,模拟是可行替代
- 现有主动性研究未考虑个人偏好差异,个性化研究未考虑主动发起交互的能力
- 需要将两者统一:在正确时机针对个人偏好提供推荐
方法详解¶
ProPerSim 模拟框架: - 用户 Agent:基于大五人格 + 6 个属性(年龄、背景、兴趣等)的丰富 persona,生成 32 个不同 persona - 行为生成:基于 Generative Agents 架构 + GPT-4o,10-30 分钟粒度的日常活动 - 评估维度(基于 353 人 AMT 调研筛选):个人偏好匹配、推荐频率、时机恰当性、沟通安全性(共 4 维) - 时间驱动主动性:每 T 时间步助手决定是否推荐(T=2.5min),区别于事件驱动
ProPerAssistant 基线: - 内部状态:结构化记忆(近 10 分钟详细 + 早期压缩为 1h/4h 摘要)+ RAG 检索 top-5 相似历史 - 偏好学习:每个 action 生成 n=2 候选推荐 → 用户评分 → DPO 训练 - 每日仿真结束后用 200 样本 replay buffer 做 DPO 更新
实验关键数据¶
| 方法 | Day 1 均分 | Day 14 均分 |
|---|---|---|
| No Memory | ~2.1 | ~2.2 |
| AR Memory | ~2.3 | ~2.3 |
| ARS Memory | ~2.6 | ~2.5 |
| ProPerAssistant | ~2.2 | ~3.3 |
- ProPerAssistant 从 2.2/4 提升到 3.3/4,显示持续学习和适应
- 其他基线无显著随时间改善趋势
- 人类评估:行为自然度 8.25/10,persona 一致性 8.02/10,评估合理率 90.54%
- 运行代价:单 persona 约 10 天 A100 + $30 API
亮点¶
- 首创主动性 + 个性化统一框架:填补两个独立研究方向的空白
- 基于大五人格的 32 个 persona 覆盖多样行为模式
- 时间驱动的主动性定义更贴近真实助手场景
- 评估指标来自真实用户调研(353 人 AMT),非主观设计
局限性 / 可改进方向¶
- 计算成本极高(单 persona 10 天 A100),难以大规模扩展
- 用户和评估均基于 LLM 模拟,与真实人类行为可能有差距
- 仅限家庭场景,未扩展到工作、社交等场景
- DPO 候选数 n=2 受限于计算成本,更多候选可能带来更好对齐
与相关工作的对比¶
- vs Proactive Agent (Lu et al.):加入个性化维度,基于 persona 而非通用事件
- vs Generative Agents (Park et al.):从社会模拟扩展到用户-助手交互模拟
- vs 个性化方法 (RLHF/RAG):结合主动推荐 + 偏好学习的完整闭环
评分¶
- 新颖性: ⭐⭐⭐⭐ 主动+个性化统一是新方向
- 实验充分度: ⭐⭐⭐⭐ 32 persona、人类评估、多基线对比
- 写作质量: ⭐⭐⭐⭐ 框架清晰,细节充分
- 价值: ⭐⭐⭐⭐ 为个人助手研究提供有价值的模拟平台