EAGER: Efficient Failure Management for Multi-Agent Systems with Reasoning Trace Representation¶
日期: 2026-03-23
arXiv: 2603.21522
代码: 无
领域: 自监督学习 / LLM Agent
关键词: multi-agent system, failure management, reasoning trace, contrastive learning, AgentOps
一句话总结¶
提出 EAGER,通过推理域对比学习将多智能体推理轨迹编码为统一表示空间,实现基于历史故障模式的实时逐步故障检测(5 秒内)、反思式缓解和根因诊断,在三个开源 MAS 上异常检测 F1 达 73-86%,并将 RCLAgent 的 R@1 从 28.47% 提升至 30.19%。
研究背景与动机¶
-
领域现状: LLM 驱动的多智能体系统(MAS)在软件工程、智能助手、科研工作流等场景广泛应用。AgentOps 概念被提出用于系统化管理 MAS 的故障。已有方法如 AEGIS、FAMAS、RAFFLES 等关注异常检测和故障诊断。
-
现有痛点: (i) 逐轨迹推理效率低——现有方法独立处理每条推理轨迹,依赖大型 judge LLM 做语义分析,在高吞吐 MAS 中计算开销巨大;(ii) 忽略历史故障模式——同样的故障可能被正确分析也可能被误判(LLM 不稳定),堆叠更多评估层治标不治本。
-
核心矛盾: MAS 推理轨迹富含语义但结构复杂(既有 Agent 内推理逻辑,又有 Agent 间协调模式),现有文本嵌入模型完全无法捕捉这种层次化推理语义——实验显示 Qwen3-0.6B-Embedding 和 BGE-M3 的 Recall@10 仅 13-22%。
-
本文要解决什么: (i) 如何高效表示推理轨迹?(ii) 如何利用历史故障模式加速检测和提升准确率?(iii) 检测到故障后如何快速恢复?
-
切入角度: 特定 MAS 的故障类型是集中且重复的(实证发现:AutoGen-Code 82% 故障集中在 2 类),可通过表示学习 + 历史模式匹配加速故障管理。
-
核心 idea: 推理域对比学习编码推理轨迹 → 历史模式匹配实现实时逐步检测 → 反思式缓解快速恢复。
方法详解¶
整体框架¶
EAGER 包含三个核心组件:(1) 表示模型——通过 Reasoning-Scoped Contrastive Learning 训练,将推理轨迹编码到统一潜空间;(2) 逐步检测——每个 Agent 完成推理后立即与历史故障知识库匹配;(3) 反思式缓解——检测到故障后触发两级自我修复。此外,用户确认输出错误后触发 Expert Inspect + Agent RCA 更新故障知识库,形成持续学习闭环。
关键设计¶
- 推理域对比学习(Reasoning-Scoped Contrastive Learning):
- 做什么:训练双层编码器——推理编码器(Agent 内推理语义)+ 轨迹编码器(Agent 间协调模式)
- 核心思路:通过问题变体自动生成训练样本(语义相似的问题产生结构类似的推理轨迹),自然获得正负样本对,完全无需故障标注
- 三元损失:\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{intra} + \lambda_2 \mathcal{L}_{inter} + \lambda_3 \mathcal{L}_{rank}\)
- \(\mathcal{L}_{intra}\): 同Agent在相似问题下的推理应接近(Agent内对比)
- \(\mathcal{L}_{inter}\): 保留Agent间协调语义(Agent间对比)
- \(\mathcal{L}_{rank}\): 前缀-完整排序损失,确保部分轨迹和完整轨迹的表示一致(支持逐步检测)
-
设计动机:通用文本嵌入模型对层次化推理结构完全无感知,专用表示学习是必要的
-
故障知识库(Failure Knowledge):
- 做什么:维护两级故障知识用于匹配检测
- 细粒度知识:定位到具体 Agent 的具体推理步骤(Agent级),支持精确定位
- 粗粒度知识:整条推理轨迹被标记为故障但未精确定位(轨迹级),支持快速初筛
- 持续更新:用户确认错误 → Expert Inspect + Agent RCA → 补充新故障模式
-
逐步检测(Step-Wise Detection):
- 做什么:每个 Agent 完成推理后立即检查,而非等全部完成
- 核心思路:当前 Agent 推理嵌入与细粒度知识库匹配;全部 Agent 完成后整条轨迹嵌入与粗粒度知识库匹配
- 设计动机:早期检测 = 早期干预,不必等到最终输出才发现问题
-
反思式缓解(Reflexive Mitigation):
- 做什么:检测到故障后触发自动修复
- 两级策略:(i) 定位到具体 Agent → 模型中心反思(该 Agent 重新推理);(ii) 整条轨迹故障 → 协调中心反思(重新评估 Agent 间协调和规划)
- 设计动机:大多数非恶意故障可通过自我反思修复,无需人工干预
训练策略¶
- 完全无监督:基于问题变体生成正负样本,不依赖故障标签
- 从 Qwen-0.6B-Embedding 轻量微调
实验关键数据¶
主实验:异常检测与故障诊断 (F1-Score)¶
| 任务 | AutoGen-Code | RCLAgent | SWE-Agent |
|---|---|---|---|
| 异常检测 | 73.57% | 86.18% | 79.95% |
| 故障诊断 | 63.23% | 78.76% | 69.51% |
| 检测延迟 | 5.23s | 4.57s | 4.91s |
任务性能提升¶
| 方法 | R@1 | R@3 | R@5 | R@10 | MRR |
|---|---|---|---|---|---|
| RCLAgent | 28.47% | 62.37% | 64.41% | 68.14% | 46.13% |
| RCLAgent + EAGER | 30.19% | 65.82% | 68.56% | 70.03% | 48.65% |
现有嵌入模型的失败¶
| 模型 | Recall@10 | NDCG@10 | MRR@10 |
|---|---|---|---|
| Qwen3-0.6B-Embedding | 13.3% | 8.7% | 6.2% |
| BGE-M3-Embedding | 22.2% | 14.5% | 10.8% |
关键发现¶
- 每个 MAS 的故障类型高度集中:AutoGen-Code 82% 集中在 Incorrect Code + Decomposition Error;RCLAgent 95% 集中在 Critical Trace Miss + Metrics Query Error
- 现有 SOTA 文本嵌入对推理轨迹检索完全失效,验证了专用表示学习的必要性
- 检测延迟仅 4.5-5.2秒,远快于逐轨迹 LLM 推理方式
- EAGER 的实时检测+缓解将下游任务各指标稳定提升 1.7-3.5 个百分点
亮点与洞察¶
- 故障模式集中性的实证发现:特定 MAS 的故障不是随机的而是集中在 2-3 种类型,为历史模式复用提供了坚实基础。这个观察本身就有独立价值
- 无监督推理轨迹表示:通过问题变体构造正负样本,绕开了稀缺的故障标注数据需求。双层编码器(推理级+轨迹级)优雅捕捉 MAS 的层次结构
- 逐步检测是关键:前缀-完整排序损失 \(\mathcal{L}_{rank}\) 的设计使得不完整轨迹也能有效匹配,支持推理过程中的实时介入
局限性 / 可改进方向¶
- 表示模型仅从 Qwen-0.6B-Embedding 轻量微调,作者承认泛化能力有限,需大规模微调
- 仅在三个开源 MAS 上评测,跨域泛化性未验证
- 故障诊断 F1 低于异常检测 10-15 个百分点,精确定位仍有提升空间
- 反思式缓解的成功率未单独报告
- 实证研究规模偏小(RCLAgent 仅 45 条轨迹)
相关工作与启发¶
- vs RAFFLES: RAFFLES 用多层评估器验证 judge LLM 推理质量,但仍是逐轨迹处理;EAGER 通过表示学习+匹配直接绕过 judge LLM
- vs AEGIS/FAMAS: 这些方法做 Who/When/What 诊断,EAGER 进一步支持实时检测和自动缓解
- 启发: 将推理轨迹表示学习思路扩展到更多 Agent 系统场景(如自动驾驶决策链故障检测)
评分¶
- 新颖性: ⭐⭐⭐⭐ 推理轨迹表示学习+历史模式复用是新视角,实证发现有独立价值
- 实验充分度: ⭐⭐⭐ 三个 MAS 评测够广但规模偏小,缺乏与其他 AgentOps 方法的直接对比
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实证研究说服力强
- 价值: ⭐⭐⭐⭐ 对 LLM Agent 系统的可靠性运维有重要参考