Non-Collaborative User Simulators for Tool Agents¶
会议: ICLR 2026
arXiv: 2509.23124
代码: https://github.com/holi-lab/NCUser
领域: 对话系统 / LLM Agent评测
关键词: 非协作用户模拟, 工具Agent鲁棒性, 对话系统压力测试, 用户行为建模, 多轮对话评测
一句话总结¶
基于marketing研究定义四类非协作用户行为(不可用服务/跑题闲聊/不耐烦/不完整表述),构建了可保持goal-alignment的模拟框架,在MultiWOZ和τ-bench上系统暴露了SOTA工具Agent的行为特异性失败机制——跑题闲聊导致平均SR下降29.1%,且不同模型呈现截然不同的崩溃路径(GPT系列陷入helper API重复调用,Qwen系列倾向于幻觉编造API结果)。
研究背景与动机¶
领域现状:工具Agent(tool agent)通过多轮对话理解用户意图、调用API、返回结果来完成任务。近年来τ-bench、Apigen-mt等工作采用用户模拟器来开发和评测这类Agent,避免了静态数据集不能反映动态交互的问题。
现有痛点:现有用户模拟器和训练数据几乎全是"Agent友好"的——用户总是清晰表述、耐心等待、完全配合。但marketing研究(Bitner et al., 1990; Reynolds & Harris, 2009)和真实对话数据(LMSYS、WildChat)表明,真实用户频繁出现四类非协作行为:请求超出系统能力的服务、闲聊跑题、因延迟发怒、发送残缺信息。这些行为从未被系统性引入Agent评测。
核心矛盾:Agent在"温室环境"中训练和评测,部署到真实场景后面对非协作用户时表现可能远低于预期。但直接在prompt中描述非协作行为(如τ-bench的PBUS方式)效果有限——PBUS在多数非协作模式下几乎不造成性能下降,说明简单的提示描述无法产生足够挑战性的非协作行为。
本文目标 (1) 如何定义和分类非协作用户行为? (2) 如何构建既能模拟非协作行为又能保证goal-alignment的用户模拟器? (3) SOTA Agent在非协作用户面前到底多脆弱,各自的失败机制是什么?
切入角度:从marketing研究中的顾客行为分类出发,将服务场景中的非协作行为映射到Agent对话场景,再通过模块化干预(而非简单prompt改写)实现可控的非协作行为模拟。
核心 idea:用模块化的行为干预架构(而非prompt描述)在协作用户模拟器基础上叠加四类非协作行为,同时通过dialogue state tracker和ending verifier保证goal-alignment。
方法详解¶
整体框架¶
输入是用户目标(user goal,如"预订2人火车票到剑桥"),输出是包含非协作行为的多轮对话。整个流程分三层:(1) 协作用户模拟器作为骨架,负责传达所有必要信息和意图;(2) 四个非协作行为模块分别对协作输出进行干预(增加/替换/截断用户发言);(3) goal-alignment保障机制确保无论怎么干预,任务完成所需的全部信息最终都会被传达。Agent侧使用ReAct框架,限制30步推理。
关键设计¶
-
协作用户模拟器骨架(Collaborative User Simulator):
- 功能:作为所有非协作行为的基础,基于用户目标、指令和对话历史生成合作性用户发言。
- 核心思路:采用τ-bench的LLM模拟框架(GPT-4.1-mini),但新增两个关键模块——(a) dialogue state tracker:将用户目标拆解为一组信息碎片(information pieces),每轮追踪哪些已传达、哪些未传达;当模拟器试图终止对话但仍有未传达信息时,强制继续对话补充遗漏信息。(b) ending verifier:防止在信息传达完毕但Agent尚未执行操作或等待用户确认时过早终止对话。
- 设计动机:τ-bench原始模拟器没有显式的goal-alignment保障,在非协作行为干预下容易丢失关键信息或过早终止,导致评测结论不可靠。
-
四类非协作行为模块:
- Unavailable Service(不可用服务):用GPT-4.1-mini分析原始用户目标,生成3条需要不存在的API或不支持参数的额外需求句子(如"订靠窗座位"但API无此参数),拼接到原始目标中。Agent需要识别并拒绝这些请求。
- Tangential(跑题闲聊):两阶段流程——先从Persona Hub随机采样人设特征,再基于人设生成4类闲聊对话行为(事实提问/观点提问/一般观点/非观点陈述)的跑题发言,与协作发言合并。当Agent忽略跑题内容时,GPT-4.1-mini检测忽略行为并生成用户抱怨,替换或增补下一轮协作发言。
- Impatience(不耐烦):在两种场景触发——Agent显式告知失败、或用户已提供全部信息但目标仍未解决(被视为延迟)。触发时从三种对话行为(恶语谩骂/威胁/催促)中随机采样,且激活概率随触发次数递增,模拟真实愤怒升级。一旦爆发,后续所有发言维持愤怒语气。
- Incomplete Utterances(不完整表述):模拟两种模式——极简表述(通过LMSYS/WildChat的few-shot示例做风格迁移,把"I want to reserve a train for 2 people"变成"Book train, 2")和意外截断(随机截断协作发言,dialogue state tracker将被截断的信息标为未发送,后续轮次重新传达)。
-
Goal-Alignment保障系统:
- 功能:确保非协作行为不会导致任务必要信息丢失。
- 核心思路:information sharding将用户目标拆为原子化信息碎片,dialogue state tracker逐轮检查传达状态,ending verifier在对话结束前做最终校验。通过Initial Goal Alignment(IGA)指标量化——τ-bench上IGA达97.5%以上。
- 设计动机:如果非协作行为导致用户连必要信息都没传达,Agent失败就不是鲁棒性问题而是评测缺陷,结论不可信。
损失函数 / 训练策略¶
主实验不涉及训练。fine-tuning实验中使用Qwen2.5-3b/7b-instruct和Llama-3.2-3b-instruct在成功的协作对话上做SFT,训练数据来自GPT-4.1-mini与协作模拟器的MultiWOZ对话。非协作鲁棒性训练通过均匀/非均匀混合四类非协作数据实现。
实验关键数据¶
主实验:MultiWOZ与τ-bench上各模型在协作与非协作模式的成功率¶
| 模型 | 协作SR (M/τ) | 不可用服务SR (M/τ) | 跑题SR (M/τ) | 不耐烦SR (M/τ) | 不完整SR (M/τ) |
|---|---|---|---|---|---|
| GPT-4.1-mini | 92.7 / 45.5 | 89.3 / 41.7 | 89.3 / 39.5 | 90.7 / 45.1 | 88.2 / 45.4 |
| GPT-4.1-nano | 23.6 / 12.0 | 16.9 / 10.0 | 9.8 / 6.8 | 26.7 / 8.8 | 14.7 / 8.0 |
| Qwen3-235b | 77.8 / 41.4 | 62.4 / 36.8 | 57.3 / 32.3 | 69.4 / 37.6 | 69.9 / 39.3 |
| Qwen3-30b | 48.3 / 27.9 | 47.2 / 26.6 | 27.2 / 20.4 | 41.0 / 24.8 | 26.1 / 30.1 |
| Llama-3.1-70b | 62.6 / 21.8 | 54.8 / 18.5 | 49.4 / 14.7 | 47.5 / 17.8 | 48.6 / 16.4 |
M = MultiWOZ, τ = τ-bench。SR为4次试验平均值。
各非协作模式的失败机制分析¶
| 非协作模式 | 相对SR降幅 | 主要失败机制 | 受影响最严重的模型 |
|---|---|---|---|
| Tangential | -29.1%(最严重) | Agent注意力被闲聊分散,遗漏核心任务API调用;忽略闲聊触发用户抱怨→消耗推理预算 | GPT-4.1-nano(相对SR仅41.5%) |
| Unavailable Service | -11.3% | GPT系列反复调用helper API重取已加载文档;Qwen3-235b转向幻觉编造API结果 | Qwen3-235b(相对SR 80.2%) |
| Incomplete Utterance | -16.5% | Agent对截断信息产生API参数幻觉(编造不存在的参数名),MultiWOZ比τ-bench严重 | GPT-4.1-nano / Qwen3-30b |
| Impatience | -12.4% | 所有模型显著增加道歉频率,消耗推理步骤;道歉率越高的模型性能下降越大 | Llama-3.1-70b(相对SR 75.9%) |
SFT训练实验:仅用协作数据 vs 混合非协作数据(Qwen2.5-3b-instruct, MultiWOZ)¶
| 训练数据 | 协作SR | 不可用服务SR | 跑题SR | 不耐烦SR | 不完整SR | 平均SR |
|---|---|---|---|---|---|---|
| 仅协作 | 91.6 | 61.2 | 83.1 | 85.1 | 73.0 | 78.8 |
| 均匀混合非协作 | 93.5 | 85.7 | 87.4 | 89.6 | 78.4 | 86.9 |
| 非均匀加权 | 91.6 | 85.7 | 85.7 | 87.6 | 82.3 | 86.6 |
关键发现¶
- 跑题闲聊(Tangential)是最致命的非协作行为。Agent被闲聊拉跑后难以回到任务正轨,"No book"和"No GT API"错误率显著上升。GPT-4.1-nano因闲聊应对能力最差,触发最多用户抱怨,加速推理预算耗尽,成功率暴跌至9.8%。
- 不同模型架构呈现截然不同的崩溃路径。面对Unavailable Service时,GPT系列陷入helper API重复调用循环(反复取已加载的API文档),而Qwen3-235b虽避免了重复调用但转向幻觉编造API返回结果——两种失败机制导致的结果同样严重。
- 道歉是一个反直觉的性能杀手。面对不耐烦用户,所有模型都大幅增加道歉频率,这看似合理的社交行为在30步推理限制下浪费了宝贵的行动预算,导致任务完不成。道歉率越高的模型(Llama-3.1-70b)性能降幅越大。
- 仅用协作数据训练小模型远远不够。SFT后小模型在协作场景可达90%+ SR,但非协作场景的提升严重滞后,尤其是unavailable service模式(61.2% vs 91.6%)。混入非协作数据后平均SR从78.8%提升到86.9%。
- 模型大小不等于鲁棒性。Qwen3-30b在unavailable service上的相对SR(97.7%)远优于更大的Qwen3-235b(80.2%),说明鲁棒性受架构和训练方式影响更大。
- 多行为组合的破坏力远超单一行为。即使GPT-4.1-mini在单一非协作行为下几乎不受影响,在两种行为同时出现时SR显著下降(如TAN+INC组合在τ-bench上从45.5%降至34.6%)。
亮点与洞察¶
- 模块化干预 vs 纯prompt描述:与PBUS(仅在prompt中描述非协作行为)相比,本文的模块化架构(separate LLM modules for each behavior)产生了真正有挑战性的对话——PBUS在多数模式下几乎不影响Agent性能,而本文框架造成了显著且一致的性能下降。这说明"描述行为"和"产生行为"是两回事,模块化干预是关键。
- Goal-Alignment是可信评测的前提:IGA指标确保了即使在非协作行为下用户仍传达了所有必要信息,因此Agent的性能下降可以归因于鲁棒性不足而非信息缺失。这一设计让评测结论可信。
- 跨域扩展能力:框架已成功推广到ColBench(无工具使用的任务对话)和MINT(用户-Agent协作任务),观察到与tool-use场景类似的性能模式——说明非协作行为的破坏力不局限于工具调用场景。
- 愤怒升级的概率机制:Impatience模块通过递增概率触发三级愤怒升级(从催促到谩骂),且一旦爆发后续保持愤怒——这种状态机设计比单次随机触发更贴近真实用户行为。
局限与展望¶
- 文化偏差:四类非协作行为的定义基于西方marketing研究(Bitner 1990, Reynolds & Harris 2009),不同文化背景的用户可能呈现不同的非协作模式(如东亚用户可能更倾向沉默/被动抵抗而非谩骂)。
- 模拟器本身的自然度:GPT-4.1-mini生成的非协作行为虽然在human evaluation中70%胜率优于PBUS,但与真实用户行为的差距未经量化。
- 防御方法缺失:论文主要诊断问题,提出的"混入非协作数据训练"只是初步方案,缺乏更sophisticated的防御方法(如在Agent推理中加入非协作行为检测模块、动态调整推理预算分配)。
- 评测环境局限:30步推理限制是合理的工程约束,但真实部署可能允许更多步骤,需要验证结论在不同预算下是否一致。
- 行为独立性假设:虽然测了两两组合,但真实用户的非协作行为可能有更复杂的共现模式和时序依赖。
相关工作与启发¶
- vs τ-bench (Yao et al., 2024):τ-bench提供了tool agent的多轮对话评测框架和协作用户模拟器,本文在其基础上增加了非协作维度。τ-bench的PBUS方式(纯prompt描述)被证明不够有效,需要模块化干预。
- vs Apigen-mt (Prabhakar et al., 2025):Apigen-mt同样做prompt-based用户模拟但只关注协作行为,本文填补了非协作行为的空白。
- vs Laban et al., 2025:Laban等人研究了underspecification behavior(不完整表述),本文的incomplete utterance模块扩展了这一方向,并将其与其他三类非协作行为统一在同一框架下。
- 本文的框架可直接用于Agent部署前的压力测试,也可为Agent的对抗训练提供数据源。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性非协作用户模拟框架,行为分类有理论依据,模块化架构设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 5个模型×2个基准×5种模式+2个扩展基准+SFT训练实验+human eval+详细错误分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入,行为-失败机制的对应关系讲解得很好
- 价值: ⭐⭐⭐⭐ 填补Agent鲁棒性评测空白,框架开源可复用,对Agent部署有直接指导意义
相关论文¶
- [ACL 2025] Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
- [ACL 2026] Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
- [ICML 2025] Investigating Non-Transitivity in LLM-as-a-Judge
- [ICML 2025] Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents
- [NeurIPS 2025] SciArena: An Open Evaluation Platform for Non-Verifiable Scientific Literature-Grounded Tasks