跳转至

MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation

会议: ACL 2026
arXiv: 2604.18509
代码: 无
领域: 信息检索 / RAG
关键词: 多Agent RAG, 证据综合, 免训练, 多视角过滤, 异构证据融合

一句话总结

本文提出 MASS-RAG,一个免训练的多 Agent 综合 RAG 框架,通过 Summarizer/Extractor/Reasoner 三个专门化过滤 Agent 从互补视角处理检索文档,再通过 Synthesis Agent 整合多视角证据或候选答案,在四个基准上持续超越强基线。

研究背景与动机

领域现状:RAG 通过在推理时引入外部知识增强 LLM 的事实性。然而,当检索到的上下文有噪声、不完整或异构时,单一生成过程难以有效协调证据。

现有痛点:(1) 现有多 Agent RAG(如 Chang et al. 2024)仅使用单一裁判 Agent 从单一视角过滤上下文,无法捕捉互补或异构的事实证据;(2) 不相关或冗余的检索信息会降低生成质量;(3) 对于需要跨文档聚合互补证据的问题,单一视角特别不足。

核心矛盾:检索到的文档可能以不同形式包含相关证据——有的需要总结,有的需要精确提取,有的需要推理连接——单一过滤策略无法兼顾。

本文目标:设计多视角证据过滤和综合机制,使 RAG 系统能从互补角度处理和整合检索到的文档。

切入角度:将证据处理分为三种互补视角——摘要(压缩保留语义)、抽取(逐字提取精确证据)、推理(推断隐含关系),通过多 Agent 分工实现。

核心 idea:不同类型的问题需要不同类型的证据处理——MASS-RAG 通过多 Agent 并行产生多个证据视图,然后通过显式比较和整合来产生更鲁棒的最终答案。

方法详解

整体框架

MASS-RAG 分三阶段:(1) 证据蒸馏——Summarizer/Extractor/Reasoner 三个 Agent 分别从检索文档中提取去噪、查询相关的证据;(2) 候选答案生成(可选)——Answer Agent 基于每个过滤结果独立生成候选答案;(3) 最终综合——Synthesis Agent 整合三个证据视图或三个候选答案,产生统一的最终预测。

关键设计

  1. 三视角过滤 Agent 设计:

    • 功能:从三个互补角度提取查询相关证据
    • 核心思路:Summarizer 将检索文档压缩为简洁的语义一致摘要 \(R_i^{(s)} = \mathcal{A}_{\text{sum}}(q_i, D)\);Extractor 逐字提取精确事实片段 \(R_i^{(e)} = \mathcal{A}_{\text{ext}}(q_i, D)\);Reasoner 推断跨文档的隐含关系 \(R_i^{(r)} = \mathcal{A}_{\text{rea}}(q_i, D)\)
    • 设计动机:不同问题类型适合不同的证据处理方式——事实型问题需要精确提取,综合型问题需要推理,信息型问题需要摘要。多视角确保至少有一种方式能捕捉到正确证据
  2. 可选 Answer Agent + Synthesis:

    • 功能:通过中间候选答案的显式比较来调和竞争假设
    • 核心思路:当 Answer Agent 启用时,每个过滤结果独立生成候选答案 \(A_i^{(j)} = \mathcal{A}_{\text{ans}}(q_i, R_i^{(j)})\),然后 Synthesis Agent 比较和整合三个候选;当禁用时,直接整合三个证据表示
    • 设计动机:对事实型 QA,候选答案承载丰富语义信号且不同视角可能产生互补或竞争假设。对多选题,中间候选答案信号有限,可跳过
  3. 免训练的角色专门化:

    • 功能:无需微调即可实现 Agent 角色分化
    • 核心思路:每个 Agent 通过精心设计的角色提示和输出约束实现专门化——Summarizer 被约束为压缩,Extractor 被约束为逐字提取,Reasoner 被约束为生成中间推理表示
    • 设计动机:免训练意味着可以在任何 LLM 上即插即用,降低部署门槛

损失函数 / 训练策略

免训练框架,所有 Agent 共享同一 LLM 主干(实验中使用 Llama-3-8B 和 Llama-2-7B/13B),仅通过角色提示分化。

实验关键数据

主实验

四个基准的准确率(Llama-3-8B + 检索)

基准 Vanilla RAG Chang et al. (单Agent过滤) MASS-RAG
TriviaQA ~70 ~72 ~74
PopQA ~48 ~52 ~55
ARC-C ~60 ~63 ~66

关键发现

  • MASS-RAG 在需要跨文档聚合互补证据的场景下优势最大
  • Answer Agent 对事实型 QA(TriviaQA/PopQA)有显著帮助,对多选题(ARC-C)帮助较小
  • 三个过滤 Agent 中,Reasoner 的单独贡献最大,说明跨文档推理是最大的瓶颈

亮点与洞察

  • 多视角过滤的思路直觉上就很有道理——不同问题确实需要不同的证据处理方式,一刀切的过滤策略会丢失特定类型的证据
  • 免训练设计使得框架即插即用,可以直接应用到任何 LLM 上
  • 可选 Answer Agent 的设计提供了任务自适应的灵活性

局限与展望

  • 多 Agent 设计增加了推理成本(3x 过滤 + 综合)
  • 所有 Agent 共享同一 LLM,角色分化仅通过提示实现——专门化程度受限
  • 未与基于训练的 RAG 方法(如 Self-RAG)在同等条件下公平对比
  • 长文本 QA 场景未充分验证

相关工作与启发

  • vs Self-RAG: 基于训练的方法,MASS-RAG 免训练但增加推理开销
  • vs Chang et al.: 单Agent过滤,MASS-RAG 用多视角弥补单一视角的盲点
  • vs REPLUG/Self-RAG: 关注检索策略优化,MASS-RAG 关注检索后的证据处理优化

评分

  • 新颖性: ⭐⭐⭐ 多Agent过滤的思路有价值但不算突破性
  • 实验充分度: ⭐⭐⭐⭐ 4基准+消融+多模型,但缺少与训练型方法的同等对比
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,动机明确
  • 价值: ⭐⭐⭐⭐ 对RAG系统的证据处理提供了实用的改进思路

相关论文