Shifting from Ranking to Set Selection for Retrieval Augmented Generation¶

会议: ACL 2025
arXiv: 2507.06838
代码: https://github.com/LGAI-Research/SetR
领域: 文本生成
关键词: RAG, 集合选择, 多跳问答, 段落检索, CoT推理

一句话总结¶

提出从"逐个排序"到"集合选择"的 RAG 检索范式转换——SetR 通过 CoT 推理显式识别查询的信息需求，然后选择一组能共同满足这些需求的段落（而非逐个评分最相关的），在多跳 RAG 基准上超越 GPT-4o 级别的重排器。

领域现状：RAG 中的检索器通常先召回大量候选段落，然后用重排器（reranker）按相关性逐个打分排序，选 top-K 段落作为上下文。
现有痛点：逐个排序只考虑每个段落与查询的单独相关性，忽略了段落之间的信息互补性。对多跳问题，答案需要多个段落的信息拼接——但 top-K 可能选中多个高度重叠的段落，遗漏关键信息片段。
核心矛盾："最相关的 K 个段落"不等于"最有用的 K 个段落组合"——集合最优 ≠ 逐个最优之和。
本文要解决什么？ 从集合层面优化 RAG 的段落选择，使选中的段落集合能全面覆盖查询的信息需求。
切入角度：先用 CoT 推理将查询分解为多个信息需求子点，然后为每个子点选择最匹配的段落，组成覆盖所有子点的最小最优集合。
核心idea一句话：先分解查询的信息需求，再选段落集合满足所有需求。

两阶段流程：(1) 需求识别——用 CoT 推理将查询分解为多个信息需求子点（如多跳问题的每一跳）；(2) 集合选择——为每个子点从候选段落中选择最匹配的段落，去重并组成最终段落集合。

信息需求分解（Information Requirement Identification）:
做什么：将复杂查询分解为原子级信息需求
核心思路：提示 LLM 用 CoT 推理分析查询需要哪几类信息才能回答。如"谁是X大学2020年毕业的诺贝尔奖得主？"分解为：(a) X大学的毕业生名单；(b) 诺贝尔奖得主名单；(c) 2020年相关信息
设计动机：多跳问题的信息需求是多维的，单一相关性打分无法区分段落对不同维度的贡献
集合级段落选择（Set-wise Passage Selection）:
做什么：选择一组能共同覆盖所有信息需求的段落
核心思路：对每个信息需求子点，找到候选中最匹配的段落并标记该子点已被覆盖。最终集合是所有子点的最佳覆盖
设计动机：避免信息冗余（多个段落覆盖同一子点）和信息缺失（某些子点没有段落覆盖）
与传统重排的对比:
传统 rerank：给每个段落独立打分，选 top-K → 可能 K 个段落全部覆盖同一信息维度
SetR：先确定需要哪些信息维度，每个维度选一个最佳段落 → 确保覆盖全面

从"排序"到"集合选择"的范式转换是核心贡献——这是对 RAG 检索阶段的根本性重新思考。传统 rerank 是"给每个段落打分"，SetR 是"给每组段落打分"。
CoT 分解信息需求很自然——多跳推理本身就是多步骤的，将查询分解为信息子点与推理步骤一一对应。
开源小模型(8B)超越闭源大模型——方法设计比模型规模更重要。
该思想可迁移到长文本摘要（选择覆盖多方面的source chunks）等其他RAG场景。