Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction¶
会议: AAAI 2026
arXiv: 2603.01423
代码: 无
领域: 视频理解
关键词: LLM评估, 多轮对话, 可靠性, 指令遵循, 工具选择
一句话总结¶
通过三个可确定性评估的代表性任务(指令遵循、工具选择、实体抽取),系统量化 LLM 在多轮对话中的可靠性退化程度,揭示模型在扩展对话中出现指令漂移、意图混淆和上下文覆写等失败模式。
研究背景与动机¶
领域现状¶
LLM 越来越多地部署在真实世界应用中,用户会进行延长的、混合话题的多轮对话。现有研究已证明 LLM 在多轮场景下表现显著退化,包括 "lost in the middle" 效应和指令一致性下降。
核心痛点¶
多轮可靠性研究不足:已有基准(Multi-IF、StructFlowBench、MINT 等)关注对话鲁棒性的某些方面,但往往聚焦抽象挑战或依赖主观判断,无法客观评估实际部署中的具体行为
单轮 vs 多轮的可靠性差距不明:模型在单轮中表现好不代表多轮中也好,但缺乏系统的配对比较
失败模式未被系统分析:指令漂移、意图混淆、上下文覆写等实际部署中的关键失败模式缺乏量化研究
核心切入角度¶
设计三个紧凑的、可确定性通过/失败评估的任务,每个任务都有单轮和多轮配对版本,以隔离和量化多轮对话引入的可靠性退化程度。任务直接反映实际助手系统的核心需求。
方法详解¶
整体框架¶
三个评估任务 × 两种设置(单轮 / 多轮)= 6 种条件,约 600 个评估实例。通过比较单轮和多轮的准确率差异来量化可靠性退化。所有任务均设计为确定性的 pass/fail 评估,避免主观性。
关键设计¶
1. 指令遵循(Instruction Following)¶
任务定义:在对话开始时指定全局约束(如 "always answer in at most 5 sentences"),对话继续若干轮无关话题后,最终提出一个刻意诱导长回答的问题。
单轮设置:直接给定约束 + 问题 多轮设置:约束后插入 5-15 轮无关闲聊,最后提问
评估标准:回答是否满足不超过 5 句话的约束,超过则失败
设计动机:模拟聊天机器人必须持续遵守格式规则(保持简洁、避免特定词汇等)的真实场景
2. 工具选择(Tool Selection)¶
任务定义:模型必须从固定工具集 [Weather, News, Calculator, Stock, Recipe, Dictionary] 中为每个请求选择正确工具。
单轮设置:用户查询直接对应单一工具 多轮设置:对话中混合多个话题的工具请求(6-16 轮,随机 2-6 个不同工具)
评估标准:选择的工具是否匹配真实工具
设计动机:反映数字助手中的意图分类和多智能体系统中的请求路由
3. 实体抽取(Entity Extraction)¶
任务定义:提取餐厅预订的最终结构化信息(日期、时间、人数)。
单轮设置:直接陈述预订请求 多轮设置:引入现实复杂情况——用户改变主意(change in mind)、无关闲聊(intermediate chit chat)、提及他人预订(multiple mention)
评估标准:三个 slot 是否完全匹配真实值
设计动机:模拟工具参数提取(如日历或预订 API)的实际需求
数据生成¶
- 使用 GPT-5 合成对话,控制对话长度、话题转换次数和修改频率
- 真实标签在生成过程中自动派生,并经人工抽样验证
- 每个任务约 100 个对话 × 多种条件
评估模型¶
商业 LLM:GPT-4o, GPT-4o-mini, Gemini-2.5-Flash
开源 SLM:Qwen3-4B/8B/32B, Ministral-8B, Mistral-small-24B, Gemma-3-12B
所有模型解码温度设为 0 以确保确定性输出。
实验关键数据¶
主实验¶
| 模型 | 指令遵循(单/多) | 工具选择(单/多) | 实体抽取(单/多) |
|---|---|---|---|
| GPT-4o | 96→63 (-33) | 100→99 (-1) | 100→86 (-14) |
| GPT-4o-mini | 93→24 (-69) | 100→93 (-7) | 96→84 (-12) |
| Gemini-2.5-Flash | 96→89 (-7) | 100→97 (-3) | 100→89 (-11) |
| Gemma-3-12B | 92→33 (-59) | 100→98 (-2) | 92→79 (-13) |
| Qwen3-8B | 83→27 (-56) | 100→89 (-11) | 98→88 (-10) |
| Qwen3-32B | 92→54 (-38) | 100→47 (-53) | 100→89 (-11) |
| Ministral-8B | 27→11 (-16) | 99→37 (-62) | 100→88 (-12) |
消融/详细分析¶
按对话长度(指令遵循):
| 轮数 | 5 | 6 | 7 | 8 | 9 | 11 |
|---|---|---|---|---|---|---|
| 准确率 | 0.40 | 0.28 | 0.38 | 0.15 | 0.29 | 0.25 |
按工具数量(工具选择):
| 可用工具数 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|
| 准确率 | 0.98 | 0.82 | 0.74 | 0.64 | 0.71 |
按场景类型(实体抽取):
| 场景类型 | 日期 | 时间 | 人数 | 全部匹配 |
|---|---|---|---|---|
| 改变主意 | 0.91 | 0.96 | 0.99 | 0.85 |
| 中间闲聊 | 0.91 | 0.97 | 0.97 | 0.86 |
| 多重提及 | 0.94 | 0.98 | 0.99 | 0.91 |
关键发现¶
-
指令遵循退化最严重:即使 GPT-4o 也从 96% 降至 63%,小模型更惨(GPT-4o-mini: 93%→24%)。这不是单纯的长上下文问题——准确率并非随轮数单调下降(10 轮时一度回升至 96%),而是与特定分心因素有关
-
工具选择呈两极分化:商业 LLM 几乎不受影响(GPT-4o: 100%→99%),但小模型在多工具混合时崩溃(Qwen3-32B: 100%→47%,Ministral-8B: 99%→37%)。准确率随可用工具数增加而显著下降
-
实体抽取最鲁棒:由于目标字段是结构化的短语/数字(日期、时间、人数),模型能以较少歧义捕获最终 slot 值。但日期 slot 一致最薄弱,反映时间追踪的困难
-
三种核心失败模式:
- 指令漂移:全局约束在多轮后被遗忘
- 意图混淆:模型过度依赖最近上下文,复用前一个工具(如 Stock→Weather 时仍选 Stock)
- 上下文覆写:临近提及干扰工作记忆,覆写已正确更新的 slot
亮点与洞察¶
- 任务设计精妙:三个任务各代表一类核心需求(全局约束维持、请求路由、状态追踪),且都有明确的 pass/fail 标准
- 单轮-多轮配对设计:精确隔离了"对话扩展"这一变量的影响
- 退化不是来自长度本身:指令遵循的准确率与对话长度无单调关系,而是与特定的上下文冲突和竞争性需求有关
- 容量依赖的脆弱性:大模型(GPT-4o、Gemini-2.5-Flash、Qwen-32B)的退化幅度明显小于小模型,但即使大模型也在指令遵循上显著退化
局限与展望¶
- 数据集规模偏小:每个任务约 100 个对话,总计约 600 个评估实例,统计显著性有限
- 仅测试英文:多语言场景下的多轮可靠性可能更差
- 实体抽取任务偏简单:目标字段是明确的数字/短语;若涉及更丰富的上下文理解(如 "the pizza with pineapple" 映射到 "Hawaiian pizza"),退化会更严重
- 任务较人工化:虽然模拟了真实场景,但合成对话与真实用户行为仍有差距
- 缺乏改进方案:主要诊断问题但未提出解决方案
相关工作与启发¶
- Laban et al. (2025):证明 LLM 在多轮分析中表现显著退化
- Liu et al. (2023):"lost in the middle" 效应的发现
- Multi-IF / StructFlowBench / MINT:多轮评估基准的前驱工作
- McNemar 检验:用于确认单轮-多轮性能差距的统计显著性
评分¶
- 新颖性: ⭐⭐⭐ — 任务设计有实际价值,但核心发现(多轮退化)并不意外
- 实验充分度: ⭐⭐⭐⭐ — 8 个模型 + 3 个任务 + 按长度/复杂度分析 + 定性案例分析
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,结论明确,图表直观
- 价值: ⭐⭐⭐⭐ — 为 LLM 多轮部署的可靠性评估提供了实用的评估框架
相关论文¶
- [NeurIPS 2025] SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
- [AAAI 2026] PragWorld: A Benchmark Evaluating LLMs' Local World Model under Minimal Linguistic Alterations and Conversational Dynamics
- [AAAI 2026] Listening Between the Frames: Bridging Temporal Gaps in Large Audio-Language Models
- [AAAI 2026] RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems
- [AAAI 2026] MambaMia: State-Space Hierarchical Compression for Hour-Long Video Understanding in Large Multimodal Models