Non-Collaborative User Simulators for Tool Agents¶

会议: ICLR 2026
arXiv: 2509.23124
代码: https://github.com/holi-lab/NCUser
领域: AI安全 / Agent评估
关键词: user simulator, tool agent, non-collaborative behavior, robustness, dialogue

一句话总结¶

提出非协作用户模拟器框架，定义四类真实非协作行为（不可用服务/跑题/不耐烦/不完整表述），揭示当前工具 Agent 面对非协作用户时显著退化（跑题平均降 29.1%），并证明混合训练可提升鲁棒性至 93.5%。

研究背景与动机¶

领域现状：工具 Agent 的评估使用协作用户模拟器——用户总是清晰、完整、合作。
现有痛点：真实用户常不合作——要求不支持的服务、跑题、不耐烦、说话不完整。评估与部署间存在显著鸿沟。
核心idea一句话：系统化定义四类非协作行为，构建目标一致的模拟器评估和提升 Agent 鲁棒性。

方法详解¶

关键设计¶

不可用服务：添加 3 个超出 API 能力的请求
跑题：4 种对话行为（事实/意见提问等）；被忽视时生成投诉
不耐烦：辱骂/威胁/催促三级升级，概率随失败增加
不完整表述：风格迁移+随机截断，但通过状态跟踪确保最终目标完成

实验关键数据¶

主实验¶

Benchmark	条件	GPT-4.1-mini SR
MultiWOZ	协作	92.7%
MultiWOZ	跑题	89.3% (-3.4%)
MultiWOZ	不完整	88.2% (-4.5%)
τ-bench	协作	45.5%
τ-bench	跑题	39.5% (-6.0%)

关键发现¶

跑题最具破坏性：平均 29.1% 性能下降
所有模型在不耐烦下大幅增加道歉（GPT-4.1-nano: 16%→36%）——道歉而非解决问题
Qwen3-235b 出现 API 幻觉（不可用服务下 1.13次/对话 vs 协作 0.33）
混合训练可提升：93.5% vs 91.6%

亮点与洞察¶

当前 Agent 的脆弱性在鲁棒性而非能力
四类非协作行为的系统化定义为 Agent 安全评估建立了分类标准

局限性 / 可改进方向¶

模拟器与真实行为约 70% 一致
仅在任务导向对话中验证

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统化定义非协作用户行为
实验充分度: ⭐⭐⭐⭐ 多模型、多benchmark、多行为类型
写作质量: ⭐⭐⭐⭐ 分类清晰
价值: ⭐⭐⭐⭐⭐ 填补 Agent 鲁棒性评估的重要空白