Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction¶

会议: AAAI 2026
arXiv: 2603.01423
代码: 无
领域: 视频理解
关键词: LLM评估, 多轮对话, 可靠性, 指令遵循, 工具选择

一句话总结¶

通过三个可确定性评估的代表性任务（指令遵循、工具选择、实体抽取），系统量化 LLM 在多轮对话中的可靠性退化程度，揭示模型在扩展对话中出现指令漂移、意图混淆和上下文覆写等失败模式。

研究背景与动机¶

领域现状¶

LLM 越来越多地部署在真实世界应用中，用户会进行延长的、混合话题的多轮对话。现有研究已证明 LLM 在多轮场景下表现显著退化，包括 "lost in the middle" 效应和指令一致性下降。

核心痛点¶

多轮可靠性研究不足：已有基准（Multi-IF、StructFlowBench、MINT 等）关注对话鲁棒性的某些方面，但往往聚焦抽象挑战或依赖主观判断，无法客观评估实际部署中的具体行为

单轮 vs 多轮的可靠性差距不明：模型在单轮中表现好不代表多轮中也好，但缺乏系统的配对比较

失败模式未被系统分析：指令漂移、意图混淆、上下文覆写等实际部署中的关键失败模式缺乏量化研究

核心切入角度¶

设计三个紧凑的、可确定性通过/失败评估的任务，每个任务都有单轮和多轮配对版本，以隔离和量化多轮对话引入的可靠性退化程度。任务直接反映实际助手系统的核心需求。

方法详解¶

整体框架¶

三个评估任务 × 两种设置（单轮 / 多轮）= 6 种条件，约 600 个评估实例。通过比较单轮和多轮的准确率差异来量化可靠性退化。所有任务均设计为确定性的 pass/fail 评估，避免主观性。

关键设计¶

1. 指令遵循（Instruction Following）¶

任务定义：在对话开始时指定全局约束（如 "always answer in at most 5 sentences"），对话继续若干轮无关话题后，最终提出一个刻意诱导长回答的问题。

单轮设置：直接给定约束 + 问题 多轮设置：约束后插入 5-15 轮无关闲聊，最后提问

评估标准：回答是否满足不超过 5 句话的约束，超过则失败

设计动机：模拟聊天机器人必须持续遵守格式规则（保持简洁、避免特定词汇等）的真实场景

2. 工具选择（Tool Selection）¶

任务定义：模型必须从固定工具集 [Weather, News, Calculator, Stock, Recipe, Dictionary] 中为每个请求选择正确工具。

单轮设置：用户查询直接对应单一工具 多轮设置：对话中混合多个话题的工具请求（6-16 轮，随机 2-6 个不同工具）

评估标准：选择的工具是否匹配真实工具

设计动机：反映数字助手中的意图分类和多智能体系统中的请求路由

3. 实体抽取（Entity Extraction）¶

任务定义：提取餐厅预订的最终结构化信息（日期、时间、人数）。

单轮设置：直接陈述预订请求 多轮设置：引入现实复杂情况——用户改变主意（change in mind）、无关闲聊（intermediate chit chat）、提及他人预订（multiple mention）

评估标准：三个 slot 是否完全匹配真实值

设计动机：模拟工具参数提取（如日历或预订 API）的实际需求

数据生成¶

使用 GPT-5 合成对话，控制对话长度、话题转换次数和修改频率
真实标签在生成过程中自动派生，并经人工抽样验证
每个任务约 100 个对话 × 多种条件

评估模型¶

商业 LLM：GPT-4o, GPT-4o-mini, Gemini-2.5-Flash
开源 SLM：Qwen3-4B/8B/32B, Ministral-8B, Mistral-small-24B, Gemma-3-12B
所有模型解码温度设为 0 以确保确定性输出。

实验关键数据¶

主实验¶

模型	指令遵循(单/多)	工具选择(单/多)	实体抽取(单/多)
GPT-4o	96→63 (-33)	100→99 (-1)	100→86 (-14)
GPT-4o-mini	93→24 (-69)	100→93 (-7)	96→84 (-12)
Gemini-2.5-Flash	96→89 (-7)	100→97 (-3)	100→89 (-11)
Gemma-3-12B	92→33 (-59)	100→98 (-2)	92→79 (-13)
Qwen3-8B	83→27 (-56)	100→89 (-11)	98→88 (-10)
Qwen3-32B	92→54 (-38)	100→47 (-53)	100→89 (-11)
Ministral-8B	27→11 (-16)	99→37 (-62)	100→88 (-12)

消融/详细分析¶

按对话长度（指令遵循）：

轮数	5	6	7	8	9	11
准确率	0.40	0.28	0.38	0.15	0.29	0.25

按工具数量（工具选择）：

可用工具数	2	3	4	5	6
准确率	0.98	0.82	0.74	0.64	0.71

按场景类型（实体抽取）：

场景类型	日期	时间	人数	全部匹配
改变主意	0.91	0.96	0.99	0.85
中间闲聊	0.91	0.97	0.97	0.86
多重提及	0.94	0.98	0.99	0.91

关键发现¶

指令遵循退化最严重：即使 GPT-4o 也从 96% 降至 63%，小模型更惨（GPT-4o-mini: 93%→24%）。这不是单纯的长上下文问题——准确率并非随轮数单调下降（10 轮时一度回升至 96%），而是与特定分心因素有关
工具选择呈两极分化：商业 LLM 几乎不受影响（GPT-4o: 100%→99%），但小模型在多工具混合时崩溃（Qwen3-32B: 100%→47%，Ministral-8B: 99%→37%）。准确率随可用工具数增加而显著下降
实体抽取最鲁棒：由于目标字段是结构化的短语/数字（日期、时间、人数），模型能以较少歧义捕获最终 slot 值。但日期 slot 一致最薄弱，反映时间追踪的困难
三种核心失败模式：
- 指令漂移：全局约束在多轮后被遗忘
- 意图混淆：模型过度依赖最近上下文，复用前一个工具（如 Stock→Weather 时仍选 Stock）
- 上下文覆写：临近提及干扰工作记忆，覆写已正确更新的 slot

亮点与洞察¶

任务设计精妙：三个任务各代表一类核心需求（全局约束维持、请求路由、状态追踪），且都有明确的 pass/fail 标准
单轮-多轮配对设计：精确隔离了"对话扩展"这一变量的影响
退化不是来自长度本身：指令遵循的准确率与对话长度无单调关系，而是与特定的上下文冲突和竞争性需求有关
容量依赖的脆弱性：大模型（GPT-4o、Gemini-2.5-Flash、Qwen-32B）的退化幅度明显小于小模型，但即使大模型也在指令遵循上显著退化

局限与展望¶

数据集规模偏小：每个任务约 100 个对话，总计约 600 个评估实例，统计显著性有限
仅测试英文：多语言场景下的多轮可靠性可能更差
实体抽取任务偏简单：目标字段是明确的数字/短语；若涉及更丰富的上下文理解（如 "the pizza with pineapple" 映射到 "Hawaiian pizza"），退化会更严重
任务较人工化：虽然模拟了真实场景，但合成对话与真实用户行为仍有差距
缺乏改进方案：主要诊断问题但未提出解决方案

评分¶

新颖性: ⭐⭐⭐ — 任务设计有实际价值，但核心发现（多轮退化）并不意外
实验充分度: ⭐⭐⭐⭐ — 8 个模型 + 3 个任务 + 按长度/复杂度分析 + 定性案例分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，结论明确，图表直观
价值: ⭐⭐⭐⭐ — 为 LLM 多轮部署的可靠性评估提供了实用的评估框架