ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation¶

会议: ICLR2026
arXiv: 2509.21730
代码: GitHub
领域: llm_agent / personalized assistant
关键词: 主动推荐, 个性化, 用户模拟, DPO, 大五人格

一句话总结¶

提出 ProPerSim 模拟框架和 ProPerAssistant 基线，通过用户-助手模拟环境结合 DPO 偏好学习，开发能同时具备主动性和个性化的 AI 家庭助手。

背景与动机¶

LLM 助手正从被动应答演变为主动推荐 + 个性化的方向，但两个能力分别独立研究
只有主动性的助手可能推荐不合时宜或偏好不符的内容（给素食者推荐牛排馆）
只有个性化的助手仍需用户发起交互，缺乏主动性
大规模收集真实人类行为数据面临隐私和多样性挑战，模拟是可行替代
现有主动性研究未考虑个人偏好差异，个性化研究未考虑主动发起交互的能力
需要将两者统一：在正确时机针对个人偏好提供推荐

方法详解¶

ProPerSim 模拟框架： - 用户 Agent：基于大五人格 + 6 个属性（年龄、背景、兴趣等）的丰富 persona，生成 32 个不同 persona - 行为生成：基于 Generative Agents 架构 + GPT-4o，10-30 分钟粒度的日常活动 - 评估维度（基于 353 人 AMT 调研筛选）：个人偏好匹配、推荐频率、时机恰当性、沟通安全性（共 4 维） - 时间驱动主动性：每 T 时间步助手决定是否推荐（T=2.5min），区别于事件驱动

ProPerAssistant 基线： - 内部状态：结构化记忆（近 10 分钟详细 + 早期压缩为 1h/4h 摘要）+ RAG 检索 top-5 相似历史 - 偏好学习：每个 action 生成 n=2 候选推荐 → 用户评分 → DPO 训练 - 每日仿真结束后用 200 样本 replay buffer 做 DPO 更新

实验关键数据¶

方法	Day 1 均分	Day 14 均分
No Memory	~2.1	~2.2
AR Memory	~2.3	~2.3
ARS Memory	~2.6	~2.5
ProPerAssistant	~2.2	~3.3

ProPerAssistant 从 2.2/4 提升到 3.3/4，显示持续学习和适应
其他基线无显著随时间改善趋势
人类评估：行为自然度 8.25/10，persona 一致性 8.02/10，评估合理率 90.54%
运行代价：单 persona 约 10 天 A100 + $30 API

亮点¶

首创主动性 + 个性化统一框架：填补两个独立研究方向的空白
基于大五人格的 32 个 persona 覆盖多样行为模式
时间驱动的主动性定义更贴近真实助手场景
评估指标来自真实用户调研（353 人 AMT），非主观设计

局限性 / 可改进方向¶

计算成本极高（单 persona 10 天 A100），难以大规模扩展
用户和评估均基于 LLM 模拟，与真实人类行为可能有差距
仅限家庭场景，未扩展到工作、社交等场景
DPO 候选数 n=2 受限于计算成本，更多候选可能带来更好对齐

与相关工作的对比¶

vs Proactive Agent (Lu et al.)：加入个性化维度，基于 persona 而非通用事件
vs Generative Agents (Park et al.)：从社会模拟扩展到用户-助手交互模拟
vs 个性化方法 (RLHF/RAG)：结合主动推荐 + 偏好学习的完整闭环

评分¶

新颖性: ⭐⭐⭐⭐ 主动+个性化统一是新方向
实验充分度: ⭐⭐⭐⭐ 32 persona、人类评估、多基线对比
写作质量: ⭐⭐⭐⭐ 框架清晰，细节充分
价值: ⭐⭐⭐⭐ 为个人助手研究提供有价值的模拟平台