Non-Collaborative User Simulators for Tool Agents¶
会议: ICLR 2026
arXiv: 2509.23124
代码: https://github.com/holi-lab/NCUser
领域: AI安全 / Agent评估
关键词: user simulator, tool agent, non-collaborative behavior, robustness, dialogue
一句话总结¶
提出非协作用户模拟器框架,定义四类真实非协作行为(不可用服务/跑题/不耐烦/不完整表述),揭示当前工具 Agent 面对非协作用户时显著退化(跑题平均降 29.1%),并证明混合训练可提升鲁棒性至 93.5%。
研究背景与动机¶
- 领域现状:工具 Agent 的评估使用协作用户模拟器——用户总是清晰、完整、合作。
- 现有痛点:真实用户常不合作——要求不支持的服务、跑题、不耐烦、说话不完整。评估与部署间存在显著鸿沟。
- 核心idea一句话:系统化定义四类非协作行为,构建目标一致的模拟器评估和提升 Agent 鲁棒性。
方法详解¶
关键设计¶
- 不可用服务:添加 3 个超出 API 能力的请求
- 跑题:4 种对话行为(事实/意见提问等);被忽视时生成投诉
- 不耐烦:辱骂/威胁/催促三级升级,概率随失败增加
- 不完整表述:风格迁移+随机截断,但通过状态跟踪确保最终目标完成
实验关键数据¶
主实验¶
| Benchmark | 条件 | GPT-4.1-mini SR |
|---|---|---|
| MultiWOZ | 协作 | 92.7% |
| MultiWOZ | 跑题 | 89.3% (-3.4%) |
| MultiWOZ | 不完整 | 88.2% (-4.5%) |
| τ-bench | 协作 | 45.5% |
| τ-bench | 跑题 | 39.5% (-6.0%) |
关键发现¶
- 跑题最具破坏性:平均 29.1% 性能下降
- 所有模型在不耐烦下大幅增加道歉(GPT-4.1-nano: 16%→36%)——道歉而非解决问题
- Qwen3-235b 出现 API 幻觉(不可用服务下 1.13次/对话 vs 协作 0.33)
- 混合训练可提升:93.5% vs 91.6%
亮点与洞察¶
- 当前 Agent 的脆弱性在鲁棒性而非能力
- 四类非协作行为的系统化定义为 Agent 安全评估建立了分类标准
局限性 / 可改进方向¶
- 模拟器与真实行为约 70% 一致
- 仅在任务导向对话中验证
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统化定义非协作用户行为
- 实验充分度: ⭐⭐⭐⭐ 多模型、多benchmark、多行为类型
- 写作质量: ⭐⭐⭐⭐ 分类清晰
- 价值: ⭐⭐⭐⭐⭐ 填补 Agent 鲁棒性评估的重要空白