Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers¶
会议: NeurIPS 2025
arXiv: 2512.10422
代码: GitHub
领域: 检索增强生成与问答
关键词: RAG, 问题展开, 层对比排名, 多跳QA, 合作机制
一句话总结¶
提出CoopRAG框架,通过问题展开、基于检索器层对比的重排、以及推理链补全,实现检索器与LLM的双向合作,在多跳QA上超越HippoRAG2 5.3%,单跳QA上提升35.2%。
研究背景与动机¶
- 问题简短: 原始问题信息不足,无法充分指导检索和推理
- 浅层检索: 现有检索器容易陷入表面模式匹配而非深层语义
- 幻觉问题: LLM在不确定知识时倾向生成错误信息
- 二向增强: 需要检索器和LLM相互反馈纠正的机制
方法详解¶
整体框架¶
CoopRAG分为五个阶段:
- 问题展开: LLM将问题分解为子问题和不确定推理链
- 展开增强检索: 用展开的问题检索top-n文档
- 基于层对比的排名 (RaLa): 重排为top-k文档
- 推理链补全: LLM填补推理链中的不确定部分
- 最终推理: 生成答案
关键设计¶
问题展开 (Section 3.2):
LLM生成:
- 子问题集 S = {s_1, s_2, ..., s_|S|}
- 不确定推理链 R = {(e_1, r_1, e_1'), ...,(e_|R|, r_t,
关键创新:使用
U = Q || S || R
基于层对比的排名 (RaLa, Section 3.4):
动机:Transformer低层捕捉句法,高层捕捉语义 方案:比较中间层和最高层的表示差异
score(U, D) = avg_{i=0}^{|U|} max_{j} g(q_i, d_j)
其中 g(q_i, d_j) = max_{l∈C} (
实际实现(为降低成本):
score_o(U, D) = ω_{U,D} · avg_i max_j
其中 ω_{U,D} = g(q_0, d_0) 为gap权重
推理链补全 (Section 3.5):
LLM利用top-k文档,填充
难度感知训练 (Section 3.6):
加权损失:α_{U_i} = log(1 + |S_{U_i}|)
高难度问题(更多子问题)获得更高损失权重
实验关键数据¶
检索性能 (表2 - 多跳QA)¶
| 方法 | HotpotQA R@2 | MuSiQue R@2 | 2Wiki R@2 | 关键改进 |
|---|---|---|---|---|
| HippoRAG2 (L3.3) | 83.5% | 56.1% | 76.2% | baseline |
| HippoRAG2 (GPT) | 80.5% | 53.5% | 74.6% | 对比 |
| SiReRAG (GPT) | 80.0% | 52.5% | 60.6% | 劣 |
| CoopRAG (G2-9B) | 87.9% | 59.4% | 80.1% | +5.9% |
| CoopRAG (G2-27B) | 88.3% | 59.4% | 80.8% | +6.3% |
| CoopRAG (L3.3) | 86.9% | 58.2% | 80.6% | +3.4% |
| CoopRAG (GPT) | 88.8% | 59.6% | 80.4% | +8.3% |
单跳QA性能 (表2右, NaturalQuestions)¶
| 方法 | R@2 | R@5 | 改进幅度 |
|---|---|---|---|
| HippoRAG2 (L3.3) | 45.6% | 78.0% | baseline |
| HippoRAG2 (GPT) | 44.4% | 76.4% | 对比 |
| CoopRAG (G2-9B) | 71.6% | 88.9% | +27.2% |
| CoopRAG (G2-27B) | 72.8% | 89.5% | +28.4% |
| CoopRAG (L3.3) | 77.2% | 90.8% | +31.6% |
| CoopRAG (GPT) | 80.8% | 92.1% | +35.2% |
QA性能 (表3 - EM/F1)¶
| 方法 | HotpotQA | MuSiQue | 2Wiki | NQ |
|---|---|---|---|---|
| HippoRAG2 (L3.3) | 62.7/75.5 | 37.2/48.6 | 65.0/71.0 | 48.6/63.3 |
| HippoRAG2 (GPT) | 56.3/71.1 | 35.0/49.3 | 60.5/69.7 | 43.4/60.0 |
| CoopRAG (G2-9B) | 64.4/78.1 | 52.2/65.2 | 70.0/78.1 | 63.8/72.7 |
| CoopRAG (L3.3) | 64.7/79.0 | 52.6/66.6 | 71.2/78.8 | 70.9/80.3 |
| CoopRAG (GPT) | 65.5/79.2 | 52.8/66.7 | 70.8/78.6 | 71.3/80.5 |
新近基准性能 (表4 - MMLU-Pro)¶
| 任务 | Baseline | CoopRAG-Algo | CoopRAG-Math | 最佳改进 |
|---|---|---|---|---|
| Math | 54.63% | 53.89% | 60.25% | +5.62% |
| CS | 37.80% | 40.73% | 42.20% | +4.40% |
| Physics | 38.49% | 39.26% | 44.19% | +5.70% |
| 平均 | - | +1.35% | +3.02% | 最优 |
亮点与洞察¶
- 展开-补全循环: 问题展开+推理链补全形成完整的双向协作,LLM指导检索,检索补充LLM知识
- 层对比的创意: 利用Transformer内部表示的多层特性,突破单向量表示的限制
- 不确定掩码的聪明: 通过显式掩码避免hallucination虽然看似简单,实际有效
- 规模效率: Gemma2-9B超越HippoRAG2的Llama3.3-70B,证明方法的优越性
局限性¶
- 问题类型限制: 主要针对事实性问答,创意问题(open-ended)的适用性未知
- LLM依赖: 方案依赖LLM的展开能力,弱模型可能导致失败
- 计算成本: 多次LLM调用(展开→补全→推理),推理延迟较高
- 层选择启发式: 动态层选择(ω权重)仍是启发式,理论基础有限
相关工作¶
- RAG方法: HippoRAG、SiReRAG、HopRAG、GraphRAG、LightRAG
- 查询增强: HyDE、GAR、Step-Back-Prompting
- 密集检索: ColBERT、DPR、GTR
- 推理链: CoT、ToT、ReAct
- QA系统: KBQA、多跳QA
评分¶
⭐⭐⭐⭐