ReSCORE: Label-free Iterative Retriever Training for Multi-hop Question Answering with Relevance-Consistency Supervision¶

会议: ACL 2025 (Long Paper)
arXiv: 2505.21250
代码: 项目页
领域: 信息检索 / 多跳问答
关键词: multi-hop QA, dense retriever training, label-free supervision, iterative RAG, LLM distillation

一句话总结¶

提出 ReSCORE，利用 LLM 生成的文档-问题相关性（relevance）和文档-答案一致性（consistency）的联合概率作为伪标签，在迭代 RAG 框架中无监督训练 dense retriever，在三个多跳 QA 数据集上达到 SOTA。

背景与动机¶

多跳问答（MHQA）需要跨多个文档进行推理，当前 SOTA 系统采用迭代检索增强生成（Iterative RAG）的范式。然而存在两个关键痛点：

Dense retriever 需要标注数据：虽然 dense retriever（如 Contriever）在语义匹配上优于 BM25，但它们需要标注的 query-document 对来微调。在 MHQA 场景下，每一步迭代的 query（重写后的问题）会因 LLM 不同而不同，标注成本极高。
现有迭代 RAG 方法不训练 retriever：IRCoT、Adaptive-RAG、Adaptive-Note 等方法在迭代推理方面做得很好，但都依赖预训练的稀疏检索器（BM25）或非领域适配的 dense retriever，没有在目标域上微调检索器。

核心问题¶

如何在没有标注文档相关性标签的情况下，为多跳问答场景训练一个有效的 dense retriever？

方法详解¶

整体框架¶

ReSCORE 在一个迭代 RAG 框架内工作：给定问题 \(q\)，系统迭代地检索文档、生成中间"thought"、重写 query，直到 LLM 给出最终答案（而非 "unknown"）。训练时，用 LLM 生成的概率分布作为伪标签监督 retriever，通过 KL 散度损失更新 query encoder。完整系统称为 IQATR（Iterative Question Answerer with Trained Retriever）。

关键设计¶

Relevance-Consistency 联合伪标签生成：核心公式为 \(Q_{\text{LM}}^{(i)}(d_j^{(i)} | q) \propto P_{\text{LM}}(a, q | d_j^{(i)}) = P_{\text{LM}}(q | d_j^{(i)}) \cdot P_{\text{LM}}(a | q, d_j^{(i)})\)。其中第一项 \(P_{\text{LM}}(q|d)\) 衡量文档与问题的相关性（relevance），第二项 \(P_{\text{LM}}(a|q,d)\) 衡量文档在回答问题时的一致性（consistency）。单独使用 consistency 会产生大量假阳性（表面词汇匹配但语义不相关的文档得高分），而 relevance 项可以有效过滤这些无关文档。
KL 散度训练损失：将 LLM 概率分布 \(Q_{\text{LM}}\) 作为软标签，通过最小化 \(D_{\text{KL}}(Q_{\text{LM}}^{(i)} \| P_R^{(i)})\) 来训练 retriever。\(P_R\) 是基于 query-document 向量点积的 softmax 分布。仅训练 query encoder，冻结 document encoder。计算伪标签时只取 top-\(M\)=32 个文档以控制计算开销。
迭代式 query 重构：每次迭代生成一个 "thought"（对已检索文档的关键信息压缩），将其拼接到原始 query 上构成新 query（Thought-concat 策略）。这种方式在复杂问题上优于 LLM 直接重写 query，因为保留了原始问题不易丢失焦点。
迭代训练机制：训练不是单步完成的，而是在整个迭代 RAG 过程中进行。每个 iteration 的 query 不同（因为重写了），对应不同的检索文档集，允许 retriever 学会在后续迭代中检索到与前几轮互补的文档。

实验关键数据¶

Dataset	Metric	IQATR (ReSCORE)	IRCoT (Prev SOTA)	Adaptive-RAG	Improvement
MuSiQue	EM / F1	23.4 / 32.7	22.0 / 31.8	23.6 / 31.8	+1.4 / +0.9
HotpotQA	EM / F1	47.2 / 59.3	44.4 / 56.2	42.0 / 53.8	+2.8 / +3.1
2WikiMHQA	EM / F1	50.0 / 59.7	49.7 / 54.9	40.6 / 49.8	+0.3 / +4.8

注：上表 Prev SOTA 使用 Flan-T5-XL + BM25，IQATR 使用 Llama-3.1-8B + Contriever (ReSCORE)。

Contriever 微调前后对比（同框架内）：

Dataset	Baseline (Contriever)	+ ReSCORE	Δ EM / Δ F1
MuSiQue	15.2 / 23.8	23.4 / 32.7	+8.2 / +8.9
HotpotQA	39.4 / 52.3	47.2 / 59.3	+7.8 / +7.0
2WikiMHQA	32.8 / 41.6	50.0 / 59.7	+17.2 / +18.1

消融实验要点¶

Pseudo-GT label 类型对比（Table 3，单步 reranking）：仅用 \(P(q|d)\)（relevance）平均提升 recall 5.37%；仅用 \(P(a|q,d)\)（consistency）反而下降 23.8%（假阳性严重）；两者联合 \(P(q,a|d)\) 提升 14.4%。
Pseudo-GT vs GT 标签（Table 4）：令人惊讶的是，ReSCORE 的伪标签优于人工 GT 标签。原因是 GT 标签在单步训练中要求 query 同时对齐多个距离很远的文档（如 "Billie Eilish"、"Avocado"、"Mexico Presidents"），query encoder 被拉向这些文档的质心，不利于检索任何单个文档。而 ReSCORE 通过迭代过程逐步检索互补文档。
Query 重构策略（Table 5）：Thought-concat 在复杂问题（MuSiQue、HotpotQA，平均 17+ tokens）上更优；LLM-rewrite 在简单问题（2WikiMHQA，11.7 tokens）上略优。原因是 LLM 重写复杂 query 时容易丢失焦点。

亮点¶

无需文档标注的 dense retriever 训练方法，巧妙利用 LLM 概率信号作为伪标签
Relevance + Consistency 联合建模的思路，解决了单独用 consistency 导致的假阳性问题
伪标签竟然优于人工 GT 标签，揭示了 GT 标签在多跳场景下作为训练信号的局限性
ReSCORE 可以作为插件提升多种现有迭代 RAG 框架（Self-RAG、FLARE、Adaptive-Note）的性能
统计显著性测试充分（10 seeds, t-test, p < 0.05）

局限性 / 可改进方向¶

泛化性不足：模型在特定数据集上微调，跨数据集（不同推理模式、不同 hop 数）的 OOD 泛化能力有限
计算开销：迭代检索过程增加了延迟和计算成本，每次迭代都需要 LLM 推理
只训练 query encoder、冻结 document encoder，这限制了 retriever 的适配能力上限
依赖答案作为伪标签信号，对于无法轻易获得参考答案的场景适用性降低
最大迭代次数固定为 6，对于需要更多跳数的极复杂问题可能不足

与相关工作的对比¶

方法	Retriever	训练方式	迭代	MHQA 适配
ATLAS	Dense	LLM consistency 蒸馏	✗	单跳
REPLUG	Dense	LLM consistency	✗	单跳
IRCoT	BM25	无训练	✓	✓ 但不训练 retriever
Adaptive-RAG	BM25	无训练（训分类器）	✓	✓ 但不训练 retriever
ReSCORE	Dense	LLM relevance + consistency	✓	✓ 迭代训练

与 ATLAS/REPLUG 的关键区别：ReSCORE 同时建模 relevance 和 consistency（而不仅是 consistency），且在迭代框架中训练（而非单步）。与 IRCoT/Adaptive-RAG 的区别：ReSCORE 实际训练了 retriever 而不只是使用预训练版本。

启发与关联¶

"LLM 概率作为软监督信号"的思路很有价值，可以拓展到其他需要无标注训练的检索场景（如对话检索、多轮搜索）
Pseudo-GT 优于 GT 的发现暗示：在多步推理任务中，硬标签可能不如迭代式软标签有效，值得在其他领域验证
Relevance + Consistency 的分解框架提供了一种可解释的文档评估方式，可用于 RAG 系统的文档质量评估

评分¶

新颖性: ⭐⭐⭐⭐ 核心 idea（relevance+consistency 联合伪标签 + 迭代训练 retriever）有明确创新点，但各组件（LLM 蒸馏、迭代 RAG）并非全新
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多个消融维度、与多种方法交叉对比、统计显著性测试，非常扎实
写作质量: ⭐⭐⭐⭐ 逻辑清晰、公式推导流畅、例子生动（FIFA World Cup 的假阳性例子），minor issue 是 table 较多
对我的价值: ⭐⭐⭐⭐ 对 RAG 系统中 retriever 训练方法有参考价值，尤其是 "伪标签优于 GT" 的发现和 relevance-consistency 解耦思路