跳转至

Inter-Passage Verification for Multi-evidence Multi-answer QA

会议: ACL 2025 Findings
arXiv: 2506.00425
代码: 无
领域: NLP理解
关键词: 多答案问答、段落间验证、检索增强生成、证据综合、事实核查

一句话总结

本文提出 RI²VER 框架解决多答案问答(multi-answer QA)问题——先通过独立阅读大量检索段落生成高召回但含噪声的候选答案集,再通过段落间验证(生成验证问题 → 收集额外证据 → 跨段落综合验证)过滤错误答案,在 QAMPARI 和 RoMQA 上平均 F1 提升 11.17%。

研究背景与动机

领域现状:检索增强生成(RAG)是当前问答系统的主流范式——检索相关段落,然后让 LLM 基于检索到的段落生成答案。对于单答案问题,这个流程运作良好。然而,多答案问题(如"哪些国家在 2020 年人口超过 1 亿?")对现有 RAG 系统构成了严峻挑战。

现有痛点:多答案 QA 面临两个独特困难:(1)答案分散在大量不同段落中,单次检索难以召回所有相关证据;(2)将大量段落一起输入 LLM 会导致信息过载和上下文长度限制——LLM 容易遗漏段落中的关键信息或生成幻觉答案。现有方法通常要么牺牲召回率(少检索),要么牺牲精确度(多检索但噪声大)。

核心矛盾:高召回要求检索更多段落,但更多段落意味着更多噪声和更大的综合难度。这个 recall-precision 的权衡是多答案 QA 的核心瓶颈。

本文目标:设计一个两阶段框架——第一阶段追求高召回(独立阅读每个段落),第二阶段追求高精确度(验证每个候选答案的正确性)。

切入角度:作者观察到,如果一个候选答案是正确的,那么应该能在检索到的其他段落中找到支持证据。反之,如果一个答案仅在一个段落中被提取且无法被其他信息源验证,它更可能是噪声。这种"跨段落交叉验证"的思路可以有效过滤错误答案。

核心 idea:用"独立阅读 + 段落间验证"的两阶段策略解决多答案 QA 的 recall-precision 矛盾——第一阶段最大化召回,第二阶段通过生成验证问题、收集额外证据、跨段落综合的流水线来精确过滤。

方法详解

整体框架

RI²VER (Retrieval-augmented Independent Reading with Inter-passage Verification) 的完整流水线分为两个阶段。阶段一(独立阅读):检索 Top-K 个段落(K 可以很大,如 100),对每个段落独立地让 LLM 提取可能的答案,合并去重后得到一个高召回的候选答案集合 \(\mathcal{A}\)阶段二(段落间验证):对 \(\mathcal{A}\) 中的每个候选答案 \(a\),执行三步验证——(1)生成关于 \(a\) 的验证问题;(2)检索与验证问题相关的额外证据段落;(3)基于原始段落和额外证据进行跨段落综合判断,决定是否保留 \(a\)

关键设计

  1. 独立阅读策略(Independent Reading):

    • 功能:从大量检索段落中高召回地提取候选答案
    • 核心思路:与传统 RAG 将所有段落拼接后一次性生成答案不同,RI²VER 对每个段落单独进行答案提取。给定问题 \(q\) 和段落 \(p_i\),LLM 从 \(p_i\) 中提取所有可能的答案 \(\{a_1^i, a_2^i, ...\}\)。所有段落的答案合并去重后形成候选集 \(\mathcal{A} = \bigcup_i \text{Extract}(q, p_i)\)
    • 设计动机:独立阅读避免了上下文长度限制和信息过载问题。即使单个段落只含一个答案,通过遍历所有段落也能实现高召回。代价是引入了噪声(段落无关或 LLM 幻觉导致的错误答案),但这恰好由第二阶段的验证来解决
  2. 验证问题生成(Verification Question Generation):

    • 功能:将"答案是否正确"转化为更具体、更可验证的子问题
    • 核心思路:对每个候选答案 \(a\) 和原始问题 \(q\),让 LLM 生成一个具体的验证问题 \(q_v\)。例如,原问题"哪些国家人口超过 1 亿?"+ 候选答案"巴西" → 验证问题"巴西的人口是否超过 1 亿?"。验证问题比原问题更聚焦,更容易通过检索找到明确的证据支持或反驳。
    • 设计动机:直接问"巴西是否是正确答案"对 LLM 来说太抽象。将其分解为具体的事实性问题,可以利用检索系统精确获取相关证据
  3. 跨段落综合验证(Inter-passage Synthesis Verification):

    • 功能:基于原始段落和新检索的证据综合判断候选答案的正确性
    • 核心思路:验证步骤将三类信息综合输入 LLM:(1)原始提取该答案的段落 \(p_i\);(2)针对验证问题 \(q_v\) 新检索的 Top-K 证据段落 \(\{e_1, e_2, ...\}\);(3)原始问题 \(q\) 和候选答案 \(a\)。LLM 基于所有这些信息输出 Yes/No 判断。只有通过验证的答案才保留在最终答案集中。
    • 设计动机:核心思想是"多源证据交叉验证"——如果一个答案是事实性正确的,不同来源的段落应该能互相支持。这种跨段落的信息综合是现有单段落 RAG 无法实现的

损失函数 / 训练策略

RI²VER 是一个无需训练的 pipeline 框架,所有步骤通过 LLM 的 prompt 实现。可以即插即用地应用于不同规模的 LLM。

实验关键数据

主实验

方法 QAMPARI (F1) RoMQA (F1) 平均 F1 说明
RAG (Top-10) 基线 34.2 28.7 31.5 标准 RAG
RAG (Top-50) 基线 37.8 31.4 34.6 更多段落但噪声增加
Self-RAG 38.1 33.2 35.7 自适应检索
RI²VER (Llama-7B) 42.6 38.5 40.6 小模型也有显著提升
RI²VER (GPT-3.5) 46.3 42.1 44.2 中等模型
RI²VER (GPT-4) 49.8 45.7 47.8 最佳,+11.17% 平均

消融实验

配置 QAMPARI (F1) RoMQA (F1) 说明
RI²VER 完整 49.8 45.7 完整框架
无验证步骤(仅独立阅读) 42.1 37.3 去掉验证,精确度大幅下降
无额外证据检索 45.2 41.0 仅用原始段落验证,效果打折
拼接式阅读替代独立阅读 44.5 40.8 拼接后信息过载
无验证问题生成(直接验证) 46.8 42.9 效果稍降,验证问题有辅助作用

关键发现

  • 段落间验证是最大的贡献组件——移除验证步骤后 F1 下降 7.7%/8.4%,说明高召回阶段引入的噪声必须通过验证清除
  • 额外证据检索的贡献显著——仅用原始段落验证不够,新检索的证据提供了关键的交叉验证信号
  • 独立阅读优于拼接式阅读——即使在上下文足够长的情况下,拼接大量段落也会导致性能下降
  • RI²VER 在需要多证据综合的问题上优势最明显——对于只需要单一来源即可回答的问题,提升较小;对于需要综合多个段落的问题,提升超过 15%
  • 框架对模型规模的适应性好——即使使用 Llama-7B 这样的小模型,也能获得显著的 F1 提升

亮点与洞察

  • "独立阅读 + 交叉验证"的两阶段解耦设计优雅地解决了 recall-precision 的矛盾——这种"先宽后严"的策略可以推广到其他需要从多源信息中综合的任务(如多文档摘要、fact checking)
  • 验证问题生成是一个巧妙的中间步骤——把模糊的"这个答案对不对"转化为具体的可检索可验证的事实问题,大幅提升了验证效率
  • 无需训练的 pipeline 设计使得框架可以即插即用到任何 LLM 上,部署门槛低

局限与展望

  • 验证步骤的计算开销较大——每个候选答案都需要生成验证问题 + 额外检索 + 综合判断,候选答案多时延迟显著
  • 验证问题的生成质量依赖 LLM 能力——如果 LLM 生成了不相关的验证问题,验证效果会打折
  • 仅在事实性 QA 数据集上评估,对于主观性或推理性多答案问题(如"有哪些方法可以减肥?")是否有效未知
  • 检索器的质量是整个框架的瓶颈——如果额外检索的段落质量差,验证反而可能引入误判

相关工作与启发

  • vs Self-RAG (Asai et al. 2024): Self-RAG 让 LLM 自适应地决定是否检索,但不专门处理多答案场景。RI²VER 的独立阅读 + 验证策略更适合答案数量多的问题
  • vs Chain-of-Verification (Dhuliawala et al. 2023): CoVe 也使用验证问题来减少幻觉,但面向单答案场景。RI²VER 将这个思路扩展到多答案场景,并加入了段落间的交叉验证
  • vs Verify-and-Edit (Zhao et al. 2023): Verify-and-Edit 在生成后编辑答案,RI²VER 则在候选答案集上做过滤——后者更适合多答案场景,因为不需要编辑而是保留或删除

评分

  • 新颖性: ⭐⭐⭐⭐ 段落间交叉验证的思路新颖且直觉合理,但各组件(检索、验证问题、综合)在之前工作中有类似物
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集 + 多个模型规模 + 详细消融,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,实验分析有深度
  • 价值: ⭐⭐⭐⭐ 多答案 QA 是实际场景中的重要问题,RI²VER 提供了一个实用且有效的解决方案

相关论文