跳转至

DQA: Diagnostic Question Answering for IT Support

会议: ACL 2026
arXiv: 2604.05350
代码: 无
领域: 信息检索 / 对话系统
关键词: 诊断式问答、IT支持、RAG、根因分析、诊断状态跟踪

一句话总结

本文提出DQA框架,通过维护持久化的诊断状态和在根因层面聚合检索证据(而非逐文档处理),实现企业IT支持场景下的系统化故障排查,成功率从基线41.3%提升至78.7%,平均轮次从8.4降至3.9。

研究背景与动机

领域现状:企业IT支持交互本质上是诊断性的——用户提交模糊的症状报告,支持代理需要迭代收集证据来识别根因。检索增强生成(RAG)是主流的知识接地方法,多轮RAG进一步通过对话查询重写来改善检索鲁棒性。

现有痛点:标准多轮RAG系统缺乏显式的诊断状态表示。检索到的文档在每一轮独立消费,难以跨轮次累积证据、调和冲突信号或维护对未解决假设的感知。大规模工单库检索还会产生大量近重复的冗余结果,浪费上下文窗口和延迟预算。

核心矛盾:诊断性对话需要跟踪竞争性假设、解释部分信号并决定何时提问vs.何时给出解决方案,但现有RAG系统将"对话连贯性"与"诊断进展"混为一谈,缺乏对诊断进度的显式建模。

本文目标:设计一个维护显式诊断状态、在根因层面聚合证据、并支持基于状态的行动选择的故障排查框架。

切入角度:借鉴案例推理(CBR)的思想——从相似的已解决案例中学习,但不是适配单个案例,而是聚合整个检索邻域的分布信息(如集群普遍性)来指导行动选择。

核心 idea:将检索到的工单按根因描述聚类,维护一个假设-权重向量作为诊断状态,随每轮新证据动态更新,指导从"广泛提问"到"精准排查"再到"提出解决方案"的策略转变。

方法详解

整体框架

DQA由四个核心组件组成:(1) RAggG(Retrieval-Aggregated Generation)在根因层面聚合检索结果;(2) 检索诱导的诊断状态跟踪竞争假设的支持度;(3) 行动感知的诊断策略指导澄清提问、调查步骤或解决方案提议;(4) 状态条件化的响应生成。每轮对话触发:查询重写→检索→聚合→状态更新→行动选择→响应生成。

关键设计

  1. RAggG:检索聚合生成:

    • 功能:将大量检索到的工单按根因聚类,压缩为紧凑的诊断信号,取代逐文档处理。
    • 核心思路:给定用户描述,检索Top-K相似工单,用句向量编码器对工单的resolution字段做嵌入,然后聚类(mini-batch k-means或层次聚类)。每个聚类代表一个候选根因,输出聚合证据 \(\mathcal{E} = \{(n_j, R_j)\}_{j=1}^{J}\),其中 \(n_j\) 是证据计数,\(R_j\) 是代表性案例。查询条件化的假设分布为 \(h_k = \frac{n_k(x)}{\sum_{k'} n_{k'}(x)}\)
    • 设计动机:标准RAG返回的大量近重复工单浪费上下文窗口。聚合保留了分布信息(如哪类根因最常见)而非简单去重,为下游行动选择提供了更强的信号。
  2. 检索诱导的诊断状态:

    • 功能:跨轮次持久化跟踪每个候选根因的支持度、已收集的证据和症状。
    • 核心思路:维护结构化状态 \(s_t\),包含假设权重向量 \(\mathbf{h}_t \in \mathbb{R}^K\)(每个元素对应一个根因聚类),以及关联的症状、KB文章和典型解决方案。每轮通过重新检索和重新聚合来更新状态,检索诱导的权重从新鲜证据重新计算,而结构化状态字段持久化跨轮保存。
    • 设计动机:与显式概率推理不同,DQA通过重新检索来隐式更新信念。这避免了手工设计概率模型的复杂性,同时保持了对当前证据的响应性。
  3. 行动感知的诊断策略:

    • 功能:基于诊断状态选择适当的行动类型——澄清提问、调查步骤或解决方案提议。
    • 核心思路:将故障排查建模为三种诊断行动上的策略:澄清问题(收集区分性证据)、调查步骤(验证可能原因)、解决方案提议(当不确定性降低时提出修复)。随着证据累积和支持集中到少数根因,策略自动从广泛提问转向精准调查和解决。
    • 设计动机:不受限制的自由文本生成无法明确体现诊断进展。将行动分为三类使诊断推进过程可追踪、可解释。

损失函数 / 训练策略

DQA是一个系统级设计,使用基于回放的评估协议。评估基于150个匿名企业IT支持场景,每个场景包含用户模拟器和DQA代理的多轮交互。

实验关键数据

主实验

方法 成功率 平均轮次
Multi-turn RAG基线 41.3% 8.4
DQA 78.7% 3.9

消融实验

配置 成功率 说明
DQA完整 78.7% 完整框架
w/o 聚合 ~55% 去掉根因聚合后退化明显
w/o 诊断状态 ~50% 无跨轮状态跟踪
w/o 行动策略 ~60% 无显式行动选择

关键发现

  • DQA将成功率几乎翻倍(41.3%→78.7%),同时将平均轮次减少一半以上(8.4→3.9)
  • 根因层面的聚合比逐文档检索更有效,因为它压缩了冗余信息同时保留了分布信号
  • 显式诊断状态使系统能在轮次间累积证据,避免重复提问
  • 行动策略的转换(提问→调查→解决)与诊断信心的变化自然对应

亮点与洞察

  • 从文档检索到根因聚合的范式转变:传统RAG在文档级别操作,DQA提升到语义概念(根因)级别聚合,这个思路可以推广到任何需要从大量相似案例中提取结构化洞察的检索场景。
  • 隐式信念更新:通过每轮重新检索+重新聚合来更新诊断状态,避免了显式概率模型的复杂性。这是一种"检索即推理"的策略。
  • 诊断行动的形式化:将开放式对话约束为三种行动类型,使系统行为可解释、可控。

局限与展望

  • 评估基于150个匿名场景的回放协议,规模较小,可能不能完全反映实际部署效果
  • 聚类质量依赖于工单resolution字段的质量,噪声或不完整的解决描述可能影响效果
  • 当前策略是手工定义的三种行动类型,未来可探索学习型策略
  • 未讨论与实时系统集成的延迟和可扩展性问题

相关工作与启发

  • vs 标准多轮RAG:多轮RAG改善检索鲁棒性但不表示诊断状态。DQA显式跟踪假设和证据
  • vs 案例推理(CBR):CBR从少数案例适配,DQA从大邻域聚合分布信息
  • vs 医疗诊断对话:类似的不确定性缩减逻辑,但IT场景的异构性和故障模式变化更快

评分

  • 新颖性: ⭐⭐⭐⭐ 根因聚合+诊断状态的组合在RAG系统中是新颖的设计
  • 实验充分度: ⭐⭐⭐ 效果提升显著,但150个场景的评估规模偏小
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法设计有系统性
  • 价值: ⭐⭐⭐⭐ 对企业IT支持场景有直接实用价值,聚合思路可推广

相关论文