SetR: Shifting from Ranking to Set Selection for Retrieval Augmented Generation¶

会议: ACL 2025
arXiv: 2507.06838
代码: LGAI-Research/SetR
领域: 信息检索 / RAG
关键词: RAG, 集合选择, reranking, Chain-of-Thought, 多跳问答, 信息需求识别

一句话总结¶

提出 SetR，将 RAG 中的文档排序范式转变为集合选择范式，通过 CoT 推理识别查询的信息需求并选择最优文档集合，在使用更少文档（平均 2.91 个 vs 5 个）的同时显著提升多跳问答性能。

问题定义: RAG 系统的检索模块需要确保检索到的段落不仅单独相关，还需集体构成完整的信息集合来正确回答复杂问题。
现有方法局限: 现有 reranking 方法按段落的单独相关性打分后取 top-k，存在三个核心问题：(1) 忽视段落间信息互补性，可能检索冗余内容；(2) 无法保证多跳问题所需的信息覆盖完整性；(3) 需手动选择 top-k 参数。
研究动机: RAG 系统与搜索引擎的信息需求本质不同——搜索引擎排序个体结果，RAG 需要一组段落来共同支撑生成。应从"排序"转向"集合选择"。
核心贡献: (1) 提出基于信息需求的集合式段落选择范式；(2) 训练开源 SetR 模型实现高效选择；(3) 在多跳 RAG 基准上全面超越商用和开源重排序器。

SetR 工作流程：一阶段检索器（BM25/bge）返回 top-20 候选段落 → SetR 通过 CoT 推理分析查询信息需求 → 从候选段落中选择覆盖所有信息需求的最优子集（无需排序或固定 k 值）。

信息需求识别 (IRI): 结构化 CoT 推理策略，三步流程：(a) 枚举回答问题所需的关键信息需求；(b) 识别包含每个需求相关信息的候选段落；(c) 选择集体提供最全面覆盖的段落子集。不同于通用 CoT 推理，IRI 显式建模信息需求的完整覆盖。
模型蒸馏: GPT-4o 作为教师对 MS MARCO 40K 查询进行零样本集合选择标注，蒸馏到 Llama-3.1-8B-Instruct 学生模型。训练 5 epochs，有效 batch 512，学习率 5×10⁻⁶，AdamW 优化器。
自适应段落数: 模型自动决定选择多少段落——平均仅 2.63-3.41 个（vs 基线固定 5 个），减少噪声干扰的同时提升信息精度。

使用 bge-large-en-v1.5 作为第一阶段检索器，Llama-3.1-8B 作生成器：

模型	段落数	HotpotQA EM/F1	2Wiki EM/F1	MuSiQue EM/F1	MHRAG Acc
BM25 only	5.00	30.07/30.97	31.17/25.22	7.44/10.78	41.82
bge-reranker-large	5.00	32.48/33.24	31.92/25.47	8.06/12.50	43.50
RankGPT (gpt-4o)	5.00	33.85/34.45	34.36/28.06	9.43/13.25	45.69
SetR-CoT & IRI	2.91	36.62/38.11	35.44/30.35	10.79/15.43	47.14

变体	HotpotQA F1	MHRAG Acc	说明
SetR-Selection only	37.84	46.20	无推理亦优于全部 reranking 基线
SetR-CoT	38.20	45.26	通用 CoT 不如 IRI
SetR-CoT & IRI	38.11	47.14	IRI 的显式信息需求分析最优

Less is More: SetR 平均使用 2.91 个段落即全面超越使用 5 个段落的所有基线
信息覆盖度提升显著: Hit@k 和信息覆盖率分别提升 21% 和 17%，而传统 reranking 仅提升约 10%
IRI vs 通用 CoT: 信息需求识别的提升非来自简单 CoT 推理能力，而是任务特定的结构化分析
Precision vs Rank 指标矛盾: SetR 在 Precision 上大幅领先但 MRR/NDCG 略低，暴露了传统排序指标在多跳场景的不足
增加段落数反而降低基线性能: 更多段落引入更多噪声和矛盾信息，SetR 的精选策略避免了此问题