Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers¶

会议: NeurIPS 2025
arXiv: 2512.10422
代码: GitHub
领域: 检索增强生成与问答
关键词: RAG, 问题展开, 层对比排名, 多跳QA, 合作机制

一句话总结¶

提出CoopRAG框架，通过问题展开、基于检索器层对比的重排、以及推理链补全，实现检索器与LLM的双向合作，在多跳QA上超越HippoRAG2 5.3%，单跳QA上提升35.2%。

研究背景与动机¶

问题简短: 原始问题信息不足，无法充分指导检索和推理
浅层检索: 现有检索器容易陷入表面模式匹配而非深层语义
幻觉问题: LLM在不确定知识时倾向生成错误信息
二向增强: 需要检索器和LLM相互反馈纠正的机制

方法详解¶

整体框架¶

CoopRAG分为五个阶段：

问题展开: LLM将问题分解为子问题和不确定推理链
展开增强检索: 用展开的问题检索top-n文档
基于层对比的排名 (RaLa): 重排为top-k文档
推理链补全: LLM填补推理链中的不确定部分
最终推理: 生成答案

关键设计¶

问题展开 (Section 3.2):

LLM生成： - 子问题集 S = {s_1, s_2, ..., s_|S|} - 不确定推理链 R = {(e_1, r_1, e_1'), ...,(e_|R|, r_t, )}

关键创新：使用掩码代替不确定实体，避免hallucination：

U = Q || S || R

基于层对比的排名 (RaLa, Section 3.4):

动机：Transformer低层捕捉句法，高层捕捉语义方案：比较中间层和最高层的表示差异

score(U, D) = avg_{i=0}^{|U|} max_{j} g(q_i, d_j)

其中 g(q_i, d_j) = max_{l∈C} ( - )

实际实现（为降低成本）：

score_o(U, D) = ω_{U,D} · avg_i max_j

其中 ω_{U,D} = g(q_0, d_0) 为gap权重

推理链补全 (Section 3.5):

LLM利用top-k文档，填充和占位符，重构推理链

难度感知训练 (Section 3.6):

加权损失：α_{U_i} = log(1 + |S_{U_i}|)

高难度问题（更多子问题）获得更高损失权重

实验关键数据¶

检索性能 (表2 - 多跳QA)¶

方法	HotpotQA R@2	MuSiQue R@2	2Wiki R@2	关键改进
HippoRAG2 (L3.3)	83.5%	56.1%	76.2%	baseline
HippoRAG2 (GPT)	80.5%	53.5%	74.6%	对比
SiReRAG (GPT)	80.0%	52.5%	60.6%	劣
CoopRAG (G2-9B)	87.9%	59.4%	80.1%	+5.9%
CoopRAG (G2-27B)	88.3%	59.4%	80.8%	+6.3%
CoopRAG (L3.3)	86.9%	58.2%	80.6%	+3.4%
CoopRAG (GPT)	88.8%	59.6%	80.4%	+8.3%

单跳QA性能 (表2右, NaturalQuestions)¶

方法	R@2	R@5	改进幅度
HippoRAG2 (L3.3)	45.6%	78.0%	baseline
HippoRAG2 (GPT)	44.4%	76.4%	对比
CoopRAG (G2-9B)	71.6%	88.9%	+27.2%
CoopRAG (G2-27B)	72.8%	89.5%	+28.4%
CoopRAG (L3.3)	77.2%	90.8%	+31.6%
CoopRAG (GPT)	80.8%	92.1%	+35.2%

QA性能 (表3 - EM/F1)¶

方法	HotpotQA	MuSiQue	2Wiki	NQ
HippoRAG2 (L3.3)	62.7/75.5	37.2/48.6	65.0/71.0	48.6/63.3
HippoRAG2 (GPT)	56.3/71.1	35.0/49.3	60.5/69.7	43.4/60.0
CoopRAG (G2-9B)	64.4/78.1	52.2/65.2	70.0/78.1	63.8/72.7
CoopRAG (L3.3)	64.7/79.0	52.6/66.6	71.2/78.8	70.9/80.3
CoopRAG (GPT)	65.5/79.2	52.8/66.7	70.8/78.6	71.3/80.5

新近基准性能 (表4 - MMLU-Pro)¶

任务	Baseline	CoopRAG-Algo	CoopRAG-Math	最佳改进
Math	54.63%	53.89%	60.25%	+5.62%
CS	37.80%	40.73%	42.20%	+4.40%
Physics	38.49%	39.26%	44.19%	+5.70%
平均	-	+1.35%	+3.02%	最优

亮点与洞察¶

展开-补全循环: 问题展开+推理链补全形成完整的双向协作，LLM指导检索，检索补充LLM知识
层对比的创意: 利用Transformer内部表示的多层特性，突破单向量表示的限制
不确定掩码的聪明: 通过显式掩码避免hallucination虽然看似简单，实际有效
规模效率: Gemma2-9B超越HippoRAG2的Llama3.3-70B，证明方法的优越性

局限性¶

问题类型限制: 主要针对事实性问答，创意问题(open-ended)的适用性未知
LLM依赖: 方案依赖LLM的展开能力，弱模型可能导致失败
计算成本: 多次LLM调用（展开→补全→推理），推理延迟较高
层选择启发式: 动态层选择(ω权重)仍是启发式，理论基础有限

评分¶

⭐⭐⭐⭐