跳转至

EAGER: Efficient Failure Management for Multi-Agent Systems with Reasoning Trace Representation

日期: 2026-03-23
arXiv: 2603.21522
代码: 无
领域: 自监督学习 / LLM Agent
关键词: multi-agent system, failure management, reasoning trace, contrastive learning, AgentOps

一句话总结

提出 EAGER,通过推理域对比学习将多智能体推理轨迹编码为统一表示空间,实现基于历史故障模式的实时逐步故障检测(5 秒内)、反思式缓解和根因诊断,在三个开源 MAS 上异常检测 F1 达 73-86%,并将 RCLAgent 的 R@1 从 28.47% 提升至 30.19%。

研究背景与动机

  1. 领域现状: LLM 驱动的多智能体系统(MAS)在软件工程、智能助手、科研工作流等场景广泛应用。AgentOps 概念被提出用于系统化管理 MAS 的故障。已有方法如 AEGIS、FAMAS、RAFFLES 等关注异常检测和故障诊断。

  2. 现有痛点: (i) 逐轨迹推理效率低——现有方法独立处理每条推理轨迹,依赖大型 judge LLM 做语义分析,在高吞吐 MAS 中计算开销巨大;(ii) 忽略历史故障模式——同样的故障可能被正确分析也可能被误判(LLM 不稳定),堆叠更多评估层治标不治本。

  3. 核心矛盾: MAS 推理轨迹富含语义但结构复杂(既有 Agent 内推理逻辑,又有 Agent 间协调模式),现有文本嵌入模型完全无法捕捉这种层次化推理语义——实验显示 Qwen3-0.6B-Embedding 和 BGE-M3 的 Recall@10 仅 13-22%。

  4. 本文要解决什么: (i) 如何高效表示推理轨迹?(ii) 如何利用历史故障模式加速检测和提升准确率?(iii) 检测到故障后如何快速恢复?

  5. 切入角度: 特定 MAS 的故障类型是集中且重复的(实证发现:AutoGen-Code 82% 故障集中在 2 类),可通过表示学习 + 历史模式匹配加速故障管理。

  6. 核心 idea: 推理域对比学习编码推理轨迹 → 历史模式匹配实现实时逐步检测 → 反思式缓解快速恢复。

方法详解

整体框架

EAGER 包含三个核心组件:(1) 表示模型——通过 Reasoning-Scoped Contrastive Learning 训练,将推理轨迹编码到统一潜空间;(2) 逐步检测——每个 Agent 完成推理后立即与历史故障知识库匹配;(3) 反思式缓解——检测到故障后触发两级自我修复。此外,用户确认输出错误后触发 Expert Inspect + Agent RCA 更新故障知识库,形成持续学习闭环。

关键设计

  1. 推理域对比学习(Reasoning-Scoped Contrastive Learning):
    • 做什么:训练双层编码器——推理编码器(Agent 内推理语义)+ 轨迹编码器(Agent 间协调模式)
    • 核心思路:通过问题变体自动生成训练样本(语义相似的问题产生结构类似的推理轨迹),自然获得正负样本对,完全无需故障标注
    • 三元损失:\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{intra} + \lambda_2 \mathcal{L}_{inter} + \lambda_3 \mathcal{L}_{rank}\)
    • \(\mathcal{L}_{intra}\): 同Agent在相似问题下的推理应接近(Agent内对比)
    • \(\mathcal{L}_{inter}\): 保留Agent间协调语义(Agent间对比)
    • \(\mathcal{L}_{rank}\): 前缀-完整排序损失,确保部分轨迹和完整轨迹的表示一致(支持逐步检测)
  2. 设计动机:通用文本嵌入模型对层次化推理结构完全无感知,专用表示学习是必要的

  3. 故障知识库(Failure Knowledge):

    • 做什么:维护两级故障知识用于匹配检测
    • 细粒度知识:定位到具体 Agent 的具体推理步骤(Agent级),支持精确定位
    • 粗粒度知识:整条推理轨迹被标记为故障但未精确定位(轨迹级),支持快速初筛
    • 持续更新:用户确认错误 → Expert Inspect + Agent RCA → 补充新故障模式
  4. 逐步检测(Step-Wise Detection):

    • 做什么:每个 Agent 完成推理后立即检查,而非等全部完成
    • 核心思路:当前 Agent 推理嵌入与细粒度知识库匹配;全部 Agent 完成后整条轨迹嵌入与粗粒度知识库匹配
    • 设计动机:早期检测 = 早期干预,不必等到最终输出才发现问题
  5. 反思式缓解(Reflexive Mitigation):

    • 做什么:检测到故障后触发自动修复
    • 两级策略:(i) 定位到具体 Agent → 模型中心反思(该 Agent 重新推理);(ii) 整条轨迹故障 → 协调中心反思(重新评估 Agent 间协调和规划)
    • 设计动机:大多数非恶意故障可通过自我反思修复,无需人工干预

训练策略

  • 完全无监督:基于问题变体生成正负样本,不依赖故障标签
  • 从 Qwen-0.6B-Embedding 轻量微调

实验关键数据

主实验:异常检测与故障诊断 (F1-Score)

任务 AutoGen-Code RCLAgent SWE-Agent
异常检测 73.57% 86.18% 79.95%
故障诊断 63.23% 78.76% 69.51%
检测延迟 5.23s 4.57s 4.91s

任务性能提升

方法 R@1 R@3 R@5 R@10 MRR
RCLAgent 28.47% 62.37% 64.41% 68.14% 46.13%
RCLAgent + EAGER 30.19% 65.82% 68.56% 70.03% 48.65%

现有嵌入模型的失败

模型 Recall@10 NDCG@10 MRR@10
Qwen3-0.6B-Embedding 13.3% 8.7% 6.2%
BGE-M3-Embedding 22.2% 14.5% 10.8%

关键发现

  • 每个 MAS 的故障类型高度集中:AutoGen-Code 82% 集中在 Incorrect Code + Decomposition Error;RCLAgent 95% 集中在 Critical Trace Miss + Metrics Query Error
  • 现有 SOTA 文本嵌入对推理轨迹检索完全失效,验证了专用表示学习的必要性
  • 检测延迟仅 4.5-5.2秒,远快于逐轨迹 LLM 推理方式
  • EAGER 的实时检测+缓解将下游任务各指标稳定提升 1.7-3.5 个百分点

亮点与洞察

  • 故障模式集中性的实证发现:特定 MAS 的故障不是随机的而是集中在 2-3 种类型,为历史模式复用提供了坚实基础。这个观察本身就有独立价值
  • 无监督推理轨迹表示:通过问题变体构造正负样本,绕开了稀缺的故障标注数据需求。双层编码器(推理级+轨迹级)优雅捕捉 MAS 的层次结构
  • 逐步检测是关键:前缀-完整排序损失 \(\mathcal{L}_{rank}\) 的设计使得不完整轨迹也能有效匹配,支持推理过程中的实时介入

局限性 / 可改进方向

  • 表示模型仅从 Qwen-0.6B-Embedding 轻量微调,作者承认泛化能力有限,需大规模微调
  • 仅在三个开源 MAS 上评测,跨域泛化性未验证
  • 故障诊断 F1 低于异常检测 10-15 个百分点,精确定位仍有提升空间
  • 反思式缓解的成功率未单独报告
  • 实证研究规模偏小(RCLAgent 仅 45 条轨迹)

相关工作与启发

  • vs RAFFLES: RAFFLES 用多层评估器验证 judge LLM 推理质量,但仍是逐轨迹处理;EAGER 通过表示学习+匹配直接绕过 judge LLM
  • vs AEGIS/FAMAS: 这些方法做 Who/When/What 诊断,EAGER 进一步支持实时检测和自动缓解
  • 启发: 将推理轨迹表示学习思路扩展到更多 Agent 系统场景(如自动驾驶决策链故障检测)

评分

  • 新颖性: ⭐⭐⭐⭐ 推理轨迹表示学习+历史模式复用是新视角,实证发现有独立价值
  • 实验充分度: ⭐⭐⭐ 三个 MAS 评测够广但规模偏小,缺乏与其他 AgentOps 方法的直接对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实证研究说服力强
  • 价值: ⭐⭐⭐⭐ 对 LLM Agent 系统的可靠性运维有重要参考