EAGER: Efficient Failure Management for Multi-Agent Systems with Reasoning Trace Representation¶

日期: 2026-03-23
arXiv: 2603.21522
代码: 无
领域: 自监督学习 / LLM Agent
关键词: multi-agent system, failure management, reasoning trace, contrastive learning, AgentOps

一句话总结¶

提出 EAGER，通过推理域对比学习将多智能体推理轨迹编码为统一表示空间，实现基于历史故障模式的实时逐步故障检测（5 秒内）、反思式缓解和根因诊断，在三个开源 MAS 上异常检测 F1 达 73-86%，并将 RCLAgent 的 R@1 从 28.47% 提升至 30.19%。

研究背景与动机¶

领域现状: LLM 驱动的多智能体系统（MAS）在软件工程、智能助手、科研工作流等场景广泛应用。AgentOps 概念被提出用于系统化管理 MAS 的故障。已有方法如 AEGIS、FAMAS、RAFFLES 等关注异常检测和故障诊断。
现有痛点: (i) 逐轨迹推理效率低——现有方法独立处理每条推理轨迹，依赖大型 judge LLM 做语义分析，在高吞吐 MAS 中计算开销巨大；(ii) 忽略历史故障模式——同样的故障可能被正确分析也可能被误判（LLM 不稳定），堆叠更多评估层治标不治本。
核心矛盾: MAS 推理轨迹富含语义但结构复杂（既有 Agent 内推理逻辑，又有 Agent 间协调模式），现有文本嵌入模型完全无法捕捉这种层次化推理语义——实验显示 Qwen3-0.6B-Embedding 和 BGE-M3 的 Recall@10 仅 13-22%。
本文要解决什么: (i) 如何高效表示推理轨迹？(ii) 如何利用历史故障模式加速检测和提升准确率？(iii) 检测到故障后如何快速恢复？
切入角度: 特定 MAS 的故障类型是集中且重复的（实证发现：AutoGen-Code 82% 故障集中在 2 类），可通过表示学习 + 历史模式匹配加速故障管理。
核心 idea: 推理域对比学习编码推理轨迹 → 历史模式匹配实现实时逐步检测 → 反思式缓解快速恢复。

方法详解¶

整体框架¶

EAGER 包含三个核心组件：(1) 表示模型——通过 Reasoning-Scoped Contrastive Learning 训练，将推理轨迹编码到统一潜空间；(2) 逐步检测——每个 Agent 完成推理后立即与历史故障知识库匹配；(3) 反思式缓解——检测到故障后触发两级自我修复。此外，用户确认输出错误后触发 Expert Inspect + Agent RCA 更新故障知识库，形成持续学习闭环。

关键设计¶

推理域对比学习（Reasoning-Scoped Contrastive Learning）:
- 做什么：训练双层编码器——推理编码器（Agent 内推理语义）+ 轨迹编码器（Agent 间协调模式）
- 核心思路：通过问题变体自动生成训练样本（语义相似的问题产生结构类似的推理轨迹），自然获得正负样本对，完全无需故障标注
- 三元损失：\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{intra} + \lambda_2 \mathcal{L}_{inter} + \lambda_3 \mathcal{L}_{rank}\)
- \(\mathcal{L}_{intra}\): 同Agent在相似问题下的推理应接近（Agent内对比）
- \(\mathcal{L}_{inter}\): 保留Agent间协调语义（Agent间对比）
- \(\mathcal{L}_{rank}\): 前缀-完整排序损失，确保部分轨迹和完整轨迹的表示一致（支持逐步检测）
设计动机：通用文本嵌入模型对层次化推理结构完全无感知，专用表示学习是必要的
故障知识库（Failure Knowledge）:
- 做什么：维护两级故障知识用于匹配检测
- 细粒度知识：定位到具体 Agent 的具体推理步骤(Agent级)，支持精确定位
- 粗粒度知识：整条推理轨迹被标记为故障但未精确定位(轨迹级)，支持快速初筛
- 持续更新：用户确认错误 → Expert Inspect + Agent RCA → 补充新故障模式
逐步检测（Step-Wise Detection）:
- 做什么：每个 Agent 完成推理后立即检查，而非等全部完成
- 核心思路：当前 Agent 推理嵌入与细粒度知识库匹配；全部 Agent 完成后整条轨迹嵌入与粗粒度知识库匹配
- 设计动机：早期检测 = 早期干预，不必等到最终输出才发现问题
反思式缓解（Reflexive Mitigation）:
- 做什么：检测到故障后触发自动修复
- 两级策略：(i) 定位到具体 Agent → 模型中心反思（该 Agent 重新推理）；(ii) 整条轨迹故障 → 协调中心反思（重新评估 Agent 间协调和规划）
- 设计动机：大多数非恶意故障可通过自我反思修复，无需人工干预

训练策略¶

完全无监督：基于问题变体生成正负样本，不依赖故障标签
从 Qwen-0.6B-Embedding 轻量微调

实验关键数据¶

主实验：异常检测与故障诊断 (F1-Score)¶

任务	AutoGen-Code	RCLAgent	SWE-Agent
异常检测	73.57%	86.18%	79.95%
故障诊断	63.23%	78.76%	69.51%
检测延迟	5.23s	4.57s	4.91s

任务性能提升¶

方法	R@1	R@3	R@5	R@10	MRR
RCLAgent	28.47%	62.37%	64.41%	68.14%	46.13%
RCLAgent + EAGER	30.19%	65.82%	68.56%	70.03%	48.65%

现有嵌入模型的失败¶

模型	Recall@10	NDCG@10	MRR@10
Qwen3-0.6B-Embedding	13.3%	8.7%	6.2%
BGE-M3-Embedding	22.2%	14.5%	10.8%

关键发现¶

每个 MAS 的故障类型高度集中：AutoGen-Code 82% 集中在 Incorrect Code + Decomposition Error；RCLAgent 95% 集中在 Critical Trace Miss + Metrics Query Error
现有 SOTA 文本嵌入对推理轨迹检索完全失效，验证了专用表示学习的必要性
检测延迟仅 4.5-5.2秒，远快于逐轨迹 LLM 推理方式
EAGER 的实时检测+缓解将下游任务各指标稳定提升 1.7-3.5 个百分点

亮点与洞察¶

故障模式集中性的实证发现：特定 MAS 的故障不是随机的而是集中在 2-3 种类型，为历史模式复用提供了坚实基础。这个观察本身就有独立价值
无监督推理轨迹表示：通过问题变体构造正负样本，绕开了稀缺的故障标注数据需求。双层编码器（推理级+轨迹级）优雅捕捉 MAS 的层次结构
逐步检测是关键：前缀-完整排序损失 \(\mathcal{L}_{rank}\) 的设计使得不完整轨迹也能有效匹配，支持推理过程中的实时介入

局限性 / 可改进方向¶

表示模型仅从 Qwen-0.6B-Embedding 轻量微调，作者承认泛化能力有限，需大规模微调
仅在三个开源 MAS 上评测，跨域泛化性未验证
故障诊断 F1 低于异常检测 10-15 个百分点，精确定位仍有提升空间
反思式缓解的成功率未单独报告
实证研究规模偏小（RCLAgent 仅 45 条轨迹）

评分¶

新颖性: ⭐⭐⭐⭐ 推理轨迹表示学习+历史模式复用是新视角，实证发现有独立价值
实验充分度: ⭐⭐⭐ 三个 MAS 评测够广但规模偏小，缺乏与其他 AgentOps 方法的直接对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，实证研究说服力强
价值: ⭐⭐⭐⭐ 对 LLM Agent 系统的可靠性运维有重要参考