跳转至

Non-Collaborative User Simulators for Tool Agents

会议: ICLR 2026
arXiv: 2509.23124
代码: https://github.com/holi-lab/NCUser
领域: AI安全 / Agent评估
关键词: user simulator, tool agent, non-collaborative behavior, robustness, dialogue

一句话总结

提出非协作用户模拟器框架,定义四类真实非协作行为(不可用服务/跑题/不耐烦/不完整表述),揭示当前工具 Agent 面对非协作用户时显著退化(跑题平均降 29.1%),并证明混合训练可提升鲁棒性至 93.5%。

研究背景与动机

  1. 领域现状:工具 Agent 的评估使用协作用户模拟器——用户总是清晰、完整、合作。
  2. 现有痛点:真实用户常不合作——要求不支持的服务、跑题、不耐烦、说话不完整。评估与部署间存在显著鸿沟。
  3. 核心idea一句话:系统化定义四类非协作行为,构建目标一致的模拟器评估和提升 Agent 鲁棒性。

方法详解

关键设计

  1. 不可用服务:添加 3 个超出 API 能力的请求
  2. 跑题:4 种对话行为(事实/意见提问等);被忽视时生成投诉
  3. 不耐烦:辱骂/威胁/催促三级升级,概率随失败增加
  4. 不完整表述:风格迁移+随机截断,但通过状态跟踪确保最终目标完成

实验关键数据

主实验

Benchmark 条件 GPT-4.1-mini SR
MultiWOZ 协作 92.7%
MultiWOZ 跑题 89.3% (-3.4%)
MultiWOZ 不完整 88.2% (-4.5%)
τ-bench 协作 45.5%
τ-bench 跑题 39.5% (-6.0%)

关键发现

  • 跑题最具破坏性:平均 29.1% 性能下降
  • 所有模型在不耐烦下大幅增加道歉(GPT-4.1-nano: 16%→36%)——道歉而非解决问题
  • Qwen3-235b 出现 API 幻觉(不可用服务下 1.13次/对话 vs 协作 0.33)
  • 混合训练可提升:93.5% vs 91.6%

亮点与洞察

  • 当前 Agent 的脆弱性在鲁棒性而非能力
  • 四类非协作行为的系统化定义为 Agent 安全评估建立了分类标准

局限性 / 可改进方向

  • 模拟器与真实行为约 70% 一致
  • 仅在任务导向对话中验证

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统化定义非协作用户行为
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多benchmark、多行为类型
  • 写作质量: ⭐⭐⭐⭐ 分类清晰
  • 价值: ⭐⭐⭐⭐⭐ 填补 Agent 鲁棒性评估的重要空白