跳转至

Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers

会议: NeurIPS 2025
arXiv: 2512.10422
代码: GitHub
领域: 检索增强生成与问答
关键词: RAG, 问题展开, 层对比排名, 多跳QA, 合作机制

一句话总结

提出CoopRAG框架,通过问题展开、基于检索器层对比的重排、以及推理链补全,实现检索器与LLM的双向合作,在多跳QA上超越HippoRAG2 5.3%,单跳QA上提升35.2%。

研究背景与动机

  1. 问题简短: 原始问题信息不足,无法充分指导检索和推理
  2. 浅层检索: 现有检索器容易陷入表面模式匹配而非深层语义
  3. 幻觉问题: LLM在不确定知识时倾向生成错误信息
  4. 二向增强: 需要检索器和LLM相互反馈纠正的机制

方法详解

整体框架

CoopRAG分为五个阶段:

  1. 问题展开: LLM将问题分解为子问题和不确定推理链
  2. 展开增强检索: 用展开的问题检索top-n文档
  3. 基于层对比的排名 (RaLa): 重排为top-k文档
  4. 推理链补全: LLM填补推理链中的不确定部分
  5. 最终推理: 生成答案

关键设计

问题展开 (Section 3.2):

LLM生成: - 子问题集 S = {s_1, s_2, ..., s_|S|} - 不确定推理链 R = {(e_1, r_1, e_1'), ...,(e_|R|, r_t, )}

关键创新:使用掩码代替不确定实体,避免hallucination:

U = Q || S || R

基于层对比的排名 (RaLa, Section 3.4):

动机:Transformer低层捕捉句法,高层捕捉语义 方案:比较中间层和最高层的表示差异

score(U, D) = avg_{i=0}^{|U|} max_{j} g(q_i, d_j)

其中 g(q_i, d_j) = max_{l∈C} ( - )

实际实现(为降低成本):

score_o(U, D) = ω_{U,D} · avg_i max_j

其中 ω_{U,D} = g(q_0, d_0) 为gap权重

推理链补全 (Section 3.5):

LLM利用top-k文档,填充占位符,重构推理链

难度感知训练 (Section 3.6):

加权损失:α_{U_i} = log(1 + |S_{U_i}|)

高难度问题(更多子问题)获得更高损失权重

实验关键数据

检索性能 (表2 - 多跳QA)

方法 HotpotQA R@2 MuSiQue R@2 2Wiki R@2 关键改进
HippoRAG2 (L3.3) 83.5% 56.1% 76.2% baseline
HippoRAG2 (GPT) 80.5% 53.5% 74.6% 对比
SiReRAG (GPT) 80.0% 52.5% 60.6%
CoopRAG (G2-9B) 87.9% 59.4% 80.1% +5.9%
CoopRAG (G2-27B) 88.3% 59.4% 80.8% +6.3%
CoopRAG (L3.3) 86.9% 58.2% 80.6% +3.4%
CoopRAG (GPT) 88.8% 59.6% 80.4% +8.3%

单跳QA性能 (表2右, NaturalQuestions)

方法 R@2 R@5 改进幅度
HippoRAG2 (L3.3) 45.6% 78.0% baseline
HippoRAG2 (GPT) 44.4% 76.4% 对比
CoopRAG (G2-9B) 71.6% 88.9% +27.2%
CoopRAG (G2-27B) 72.8% 89.5% +28.4%
CoopRAG (L3.3) 77.2% 90.8% +31.6%
CoopRAG (GPT) 80.8% 92.1% +35.2%

QA性能 (表3 - EM/F1)

方法 HotpotQA MuSiQue 2Wiki NQ
HippoRAG2 (L3.3) 62.7/75.5 37.2/48.6 65.0/71.0 48.6/63.3
HippoRAG2 (GPT) 56.3/71.1 35.0/49.3 60.5/69.7 43.4/60.0
CoopRAG (G2-9B) 64.4/78.1 52.2/65.2 70.0/78.1 63.8/72.7
CoopRAG (L3.3) 64.7/79.0 52.6/66.6 71.2/78.8 70.9/80.3
CoopRAG (GPT) 65.5/79.2 52.8/66.7 70.8/78.6 71.3/80.5

新近基准性能 (表4 - MMLU-Pro)

任务 Baseline CoopRAG-Algo CoopRAG-Math 最佳改进
Math 54.63% 53.89% 60.25% +5.62%
CS 37.80% 40.73% 42.20% +4.40%
Physics 38.49% 39.26% 44.19% +5.70%
平均 - +1.35% +3.02% 最优

亮点与洞察

  1. 展开-补全循环: 问题展开+推理链补全形成完整的双向协作,LLM指导检索,检索补充LLM知识
  2. 层对比的创意: 利用Transformer内部表示的多层特性,突破单向量表示的限制
  3. 不确定掩码的聪明: 通过显式掩码避免hallucination虽然看似简单,实际有效
  4. 规模效率: Gemma2-9B超越HippoRAG2的Llama3.3-70B,证明方法的优越性

局限性

  1. 问题类型限制: 主要针对事实性问答,创意问题(open-ended)的适用性未知
  2. LLM依赖: 方案依赖LLM的展开能力,弱模型可能导致失败
  3. 计算成本: 多次LLM调用(展开→补全→推理),推理延迟较高
  4. 层选择启发式: 动态层选择(ω权重)仍是启发式,理论基础有限

相关工作

  • RAG方法: HippoRAG、SiReRAG、HopRAG、GraphRAG、LightRAG
  • 查询增强: HyDE、GAR、Step-Back-Prompting
  • 密集检索: ColBERT、DPR、GTR
  • 推理链: CoT、ToT、ReAct
  • QA系统: KBQA、多跳QA

评分

⭐⭐⭐⭐