跳转至

Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction

会议: AAAI 2026
arXiv: 2603.01423
代码: 无
领域: 视频理解
关键词: LLM评估, 多轮对话, 可靠性, 指令遵循, 工具选择

一句话总结

通过三个可确定性评估的代表性任务(指令遵循、工具选择、实体抽取),系统量化 LLM 在多轮对话中的可靠性退化程度,揭示模型在扩展对话中出现指令漂移、意图混淆和上下文覆写等失败模式。

研究背景与动机

领域现状

LLM 越来越多地部署在真实世界应用中,用户会进行延长的、混合话题的多轮对话。现有研究已证明 LLM 在多轮场景下表现显著退化,包括 "lost in the middle" 效应和指令一致性下降。

核心痛点

多轮可靠性研究不足:已有基准(Multi-IF、StructFlowBench、MINT 等)关注对话鲁棒性的某些方面,但往往聚焦抽象挑战或依赖主观判断,无法客观评估实际部署中的具体行为

单轮 vs 多轮的可靠性差距不明:模型在单轮中表现好不代表多轮中也好,但缺乏系统的配对比较

失败模式未被系统分析:指令漂移、意图混淆、上下文覆写等实际部署中的关键失败模式缺乏量化研究

核心切入角度

设计三个紧凑的、可确定性通过/失败评估的任务,每个任务都有单轮和多轮配对版本,以隔离和量化多轮对话引入的可靠性退化程度。任务直接反映实际助手系统的核心需求。

方法详解

整体框架

三个评估任务 × 两种设置(单轮 / 多轮)= 6 种条件,约 600 个评估实例。通过比较单轮和多轮的准确率差异来量化可靠性退化。所有任务均设计为确定性的 pass/fail 评估,避免主观性。

关键设计

1. 指令遵循(Instruction Following)

任务定义:在对话开始时指定全局约束(如 "always answer in at most 5 sentences"),对话继续若干轮无关话题后,最终提出一个刻意诱导长回答的问题。

单轮设置:直接给定约束 + 问题 多轮设置:约束后插入 5-15 轮无关闲聊,最后提问

评估标准:回答是否满足不超过 5 句话的约束,超过则失败

设计动机:模拟聊天机器人必须持续遵守格式规则(保持简洁、避免特定词汇等)的真实场景

2. 工具选择(Tool Selection)

任务定义:模型必须从固定工具集 [Weather, News, Calculator, Stock, Recipe, Dictionary] 中为每个请求选择正确工具。

单轮设置:用户查询直接对应单一工具 多轮设置:对话中混合多个话题的工具请求(6-16 轮,随机 2-6 个不同工具)

评估标准:选择的工具是否匹配真实工具

设计动机:反映数字助手中的意图分类和多智能体系统中的请求路由

3. 实体抽取(Entity Extraction)

任务定义:提取餐厅预订的最终结构化信息(日期、时间、人数)。

单轮设置:直接陈述预订请求 多轮设置:引入现实复杂情况——用户改变主意(change in mind)、无关闲聊(intermediate chit chat)、提及他人预订(multiple mention)

评估标准:三个 slot 是否完全匹配真实值

设计动机:模拟工具参数提取(如日历或预订 API)的实际需求

数据生成

  • 使用 GPT-5 合成对话,控制对话长度、话题转换次数和修改频率
  • 真实标签在生成过程中自动派生,并经人工抽样验证
  • 每个任务约 100 个对话 × 多种条件

评估模型

商业 LLM:GPT-4o, GPT-4o-mini, Gemini-2.5-Flash
开源 SLM:Qwen3-4B/8B/32B, Ministral-8B, Mistral-small-24B, Gemma-3-12B
所有模型解码温度设为 0 以确保确定性输出。

实验关键数据

主实验

模型 指令遵循(单/多) 工具选择(单/多) 实体抽取(单/多)
GPT-4o 96→63 (-33) 100→99 (-1) 100→86 (-14)
GPT-4o-mini 93→24 (-69) 100→93 (-7) 96→84 (-12)
Gemini-2.5-Flash 96→89 (-7) 100→97 (-3) 100→89 (-11)
Gemma-3-12B 92→33 (-59) 100→98 (-2) 92→79 (-13)
Qwen3-8B 83→27 (-56) 100→89 (-11) 98→88 (-10)
Qwen3-32B 92→54 (-38) 100→47 (-53) 100→89 (-11)
Ministral-8B 27→11 (-16) 99→37 (-62) 100→88 (-12)

消融/详细分析

按对话长度(指令遵循)

轮数 5 6 7 8 9 11
准确率 0.40 0.28 0.38 0.15 0.29 0.25

按工具数量(工具选择)

可用工具数 2 3 4 5 6
准确率 0.98 0.82 0.74 0.64 0.71

按场景类型(实体抽取)

场景类型 日期 时间 人数 全部匹配
改变主意 0.91 0.96 0.99 0.85
中间闲聊 0.91 0.97 0.97 0.86
多重提及 0.94 0.98 0.99 0.91

关键发现

  1. 指令遵循退化最严重:即使 GPT-4o 也从 96% 降至 63%,小模型更惨(GPT-4o-mini: 93%→24%)。这不是单纯的长上下文问题——准确率并非随轮数单调下降(10 轮时一度回升至 96%),而是与特定分心因素有关

  2. 工具选择呈两极分化:商业 LLM 几乎不受影响(GPT-4o: 100%→99%),但小模型在多工具混合时崩溃(Qwen3-32B: 100%→47%,Ministral-8B: 99%→37%)。准确率随可用工具数增加而显著下降

  3. 实体抽取最鲁棒:由于目标字段是结构化的短语/数字(日期、时间、人数),模型能以较少歧义捕获最终 slot 值。但日期 slot 一致最薄弱,反映时间追踪的困难

  4. 三种核心失败模式

    • 指令漂移:全局约束在多轮后被遗忘
    • 意图混淆:模型过度依赖最近上下文,复用前一个工具(如 Stock→Weather 时仍选 Stock)
    • 上下文覆写:临近提及干扰工作记忆,覆写已正确更新的 slot

亮点与洞察

  1. 任务设计精妙:三个任务各代表一类核心需求(全局约束维持、请求路由、状态追踪),且都有明确的 pass/fail 标准
  2. 单轮-多轮配对设计:精确隔离了"对话扩展"这一变量的影响
  3. 退化不是来自长度本身:指令遵循的准确率与对话长度无单调关系,而是与特定的上下文冲突和竞争性需求有关
  4. 容量依赖的脆弱性:大模型(GPT-4o、Gemini-2.5-Flash、Qwen-32B)的退化幅度明显小于小模型,但即使大模型也在指令遵循上显著退化

局限与展望

  1. 数据集规模偏小:每个任务约 100 个对话,总计约 600 个评估实例,统计显著性有限
  2. 仅测试英文:多语言场景下的多轮可靠性可能更差
  3. 实体抽取任务偏简单:目标字段是明确的数字/短语;若涉及更丰富的上下文理解(如 "the pizza with pineapple" 映射到 "Hawaiian pizza"),退化会更严重
  4. 任务较人工化:虽然模拟了真实场景,但合成对话与真实用户行为仍有差距
  5. 缺乏改进方案:主要诊断问题但未提出解决方案

相关工作与启发

  • Laban et al. (2025):证明 LLM 在多轮分析中表现显著退化
  • Liu et al. (2023):"lost in the middle" 效应的发现
  • Multi-IF / StructFlowBench / MINT:多轮评估基准的前驱工作
  • McNemar 检验:用于确认单轮-多轮性能差距的统计显著性

评分

  • 新颖性: ⭐⭐⭐ — 任务设计有实际价值,但核心发现(多轮退化)并不意外
  • 实验充分度: ⭐⭐⭐⭐ — 8 个模型 + 3 个任务 + 按长度/复杂度分析 + 定性案例分析
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,结论明确,图表直观
  • 价值: ⭐⭐⭐⭐ — 为 LLM 多轮部署的可靠性评估提供了实用的评估框架

相关论文