Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards¶
会议: NeurIPS 2025 arXiv: 2510.04392 代码: 待确认 领域: llm_alignment 关键词: RAG一致性, GRPO, 信息一致性, 语义等价查询, 强化学习对齐
一句话总结¶
提出 Con-RAG 框架,通过 Paraphrased Set GRPO (PS-GRPO) 在语义等价查询的多次生成之间计算组相似度奖励,训练 RAG 系统的生成器在释义输入下产生信息一致的输出,无需显式真实标签监督即可同时提升一致性和准确性。
研究背景与动机¶
RAG 系统在高风险场景(医疗、金融、法律)中被广泛部署,但面临严重的输出不一致问题:
- 检索端不一致:语义等价的查询(如"如何关闭储蓄账户"与"关闭储蓄账户的步骤是什么")可能检索到不同的文档集,导致后续生成不同
- 生成端不一致:即使检索到相同文档,LLM 对措辞变化也敏感,可能产生不同答案
- 信任危机:在金融等领域,同一问题的不同回答会严重损害用户信任和合规性
现有工作主要关注 RAG 的准确性和忠实度,而信息一致性——即输出在语义等价输入下传达相同核心内容——被严重忽视。不同于词汇一致性(可能惩罚合法的同义替换),信息一致性更关注事实层面的一致。
关键观察:在短问答中,一致性与准确性正相关;在长问答中,两者正交——模型可能准确但不一致。
方法详解¶
整体框架¶
Con-RAG 包含两部分:(1) 分层一致性评估框架,诊断不一致来源;(2) PS-GRPO 训练方法,通过组相似度奖励优化生成器。
一致性度量框架¶
将 RAG 一致性分解为三个层次:
-
检索器一致性:释义查询检索到的文档集之间的 Jaccard 相似度 $\(\mathcal{C}_{\text{ret}}(q_0) = \frac{2}{n(n-1)} \sum_{i,j} \frac{|R(p_i) \cap R(p_j)|}{|R(p_i) \cup R(p_j)|}\)$
-
端到端一致性:各释义输入通过完整 RAG 管道产出的输出之间的相似度 $\(\mathcal{C}_{\text{e2e}}(q_0) = \frac{1}{n(n-1)} \sum_{i \neq j} \text{sim}(y_i, y_j)\)$
-
生成器一致性:固定检索结果,仅变化输入措辞,衡量 LLM 自身的稳定性
关键设计:Paraphrased Set GRPO (PS-GRPO)¶
基于 GRPO(Group Relative Policy Optimization)框架扩展而来。核心思想是:对于一个规范查询 \(q_0\) 的 \(n\) 个释义 \(\{p_1,...,p_n\}\),每个释义生成 \(g\) 个 rollout,形成 \(n \times g\) 的输出矩阵。
组相似度奖励:每个 rollout \(o_{ij}\) 的奖励通过与其他释义的所有 rollout 计算平均相似度得到:
实践中用 BLEU 作为相似度函数(实验验证优于 ROUGE-L、Exact Match 等)。
带准确性的联合奖励(有真实标签时):
其中 Acc 用 token F1 度量。对于开放式长回答任务,不使用准确性奖励,仅优化一致性。
优势归一化:在每个释义内部做归一化 \(\hat{A}_{ij} = (r_{ij} - \mu_i) / \sigma_i\),再用标准 GRPO 裁剪目标更新策略:
高效近似¶
朴素计算需要 \(n(n-1)g^2\) 次相似度比较(\(n=5, g=6\) 时为 720 次/查询)。论文引入松弛近似:对每个 rollout 仅随机采样 \(\kappa\) 个释义和每个释义 \(s\) 个 rollout:
复杂度从 \(O(n(n-1)g^2)\) 降至 \(O(ng\kappa s)\),其中 \(\kappa \ll n-1, s \ll g\)。
实验配置¶
- 生成器:LLaMA-3.1-8B、Qwen-2.5-3B
- 检索器:e5-base-v2,KILT Wikipedia 语料,top-k=5
- 释义生成:LLaMA-3.1-70B 为每个查询生成 \(n=6\) 个释义
- 训练:\(g=4\) rollouts/释义,\(\kappa=3, s=1\),AdamW lr=1e-6
实验关键数据¶
主实验:短问答一致性与准确性(LLaMA-3.1-8B)¶
| 数据集 | 方法 | EM↑ | F1↑ | RM↑ | 端到端一致(Lexical)↑ | 端到端一致(LLM-Judge)↑ | 生成器一致(Lexical)↑ |
|---|---|---|---|---|---|---|---|
| TriviaQA | RAG | 56.0 | 66.1 | 74.0 | 53.0 | 77.8 | 67.3 |
| TriviaQA | DRAG | 54.0 | 63.7 | 72.0 | 56.8 | 78.7 | 68.2 |
| TriviaQA | SFT | 24.0 | 27.5 | 29.0 | 51.3 | 58.2 | 77.8 |
| TriviaQA | Con-RAG | 77.0 | 81.0 | 83.0 | 87.3 | 91.3 | 91.2 |
| HotpotQA | RAG | 37.0 | 44.1 | 42.0 | 42.5 | 62.5 | 53.7 |
| HotpotQA | Con-RAG | 45.0 | 51.9 | 48.0 | 63.9 | 73.6 | 80.9 |
| MuSiQue | RAG | 8.0 | 15.3 | 12.0 | 27.9 | 48.2 | 44.4 |
| MuSiQue | Con-RAG | 23.0 | 30.8 | 25.0 | 72.5 | 72.3 | 91.4 |
TriviaQA 上 Con-RAG 端到端一致性从 53.0→87.3(词汇),77.8→91.3(LLM-Judge),同时准确性从 56.0→77.0 EM。
长回答实验(ELI5,无真实标签监督)¶
| 方法 | ROUGE↑ | LLM-Acc↑ | 端到端一致(Lexical)↑ | 端到端一致(Info)↑ | 生成器一致(Lexical)↑ | 生成器一致(Info)↑ |
|---|---|---|---|---|---|---|
| RAG | 21.9 | 74.0 | 8.6 | 62.8 | 15.1 | 74.2 |
| DRAG | 22.0 | 76.0 | 8.0 | 62.2 | 15.0 | 72.5 |
| SFT | 23.5 | 51.0 | 15.3 | 40.8 | 16.6 | 41.7 |
| Con-RAG | 24.2 | 78.0 | 14.6 | 72.7 | 21.7 | 80.8 |
在无真实标签情况下,Con-RAG 仅靠一致性奖励就同时提升了准确性(74→78 LLM-Acc)和一致性(62.8→72.7 信息一致性)。
消融实验:奖励相似度指标对比(ELI5,Qwen-2.5-3B)¶
| 指标 | LLM-Acc↑ | 端到端一致(LLM-Judge)↑ | 生成器一致(LLM-Judge)↑ |
|---|---|---|---|
| BLEU-1 | 54.0 | 38.2 | 69.8 |
| BLEU-2 | 58.0 | 42.0 | 67.5 |
| BLEU-3 | 49.0 | 36.3 | 66.0 |
| ROUGE-L | 46.0 | 35.2 | 65.2 |
| Exact Match | 49.0 | 37.7 | 66.2 |
低阶 BLEU(1-2)效果最佳,强调词汇选择和局部流畅度,更契合信息一致性目标。
关键发现¶
- 检索器是主要不一致来源:Jaccard 一致性仅 27-52%,说明释义查询经常检索到不重叠的文档
- 一致性训练隐式增强了准确性:在所有短问答数据集上,Con-RAG 同时提升了 EM、F1 和 RM,可能得益于释义训练的数据增强效果
- SFT 在开放式任务上表现差:在 ELI5 上 SFT 的 LLM-Judge 准确性仅 51.0,远低于 RAG 的 74.0,说明刚性监督不适合开放式问答
- 联合一致性+F1奖励最优:单独一致性或准确性奖励都不如联合训练(TriviaQA EM: 51.5 vs 54.0 vs 60.0)
亮点与洞察¶
- 问题定义精准:清晰区分信息一致性与词汇一致性,前者容许合法的措辞变化,后者过于严格
- 分层诊断框架:将 RAG 不一致分解为检索器/生成器/端到端三层,可精确定位瓶颈
- GRPO 的创新应用:巧妙利用 GRPO 多 rollout 的特性,将跨释义的 rollout 组成更大的比较组计算相似度奖励
- 无监督也能提升准确性:ELI5 实验证明仅靠一致性奖励(无真实标签)就能提升准确性,说明一致性是准确性的代理信号
- 计算高效:松弛近似将奖励计算从二次降到线性,使大规模训练可行
局限性¶
- 释义生成依赖强 LLM:需要 LLaMA-70B 生成高质量释义,本身有成本
- 检索器未优化:框架仅优化生成器,检索端不一致仍然存在(Jaccard 仅 27-52%)
- BLEU 奖励可能导致泛化问题:过度优化表面相似度可能牺牲回答多样性
- 评估局限:一致性与准确性的最优平衡点可能因任务而异,缺乏统一标准
- 仅测试两个模型规模:3B 和 8B,更大模型上的表现未验证
相关工作与启发¶
- GRPO(Shao et al., 2024)为本文方法的基础,PS-GRPO 是其在一致性维度的自然扩展
- 与 Self-Consistency(Wang et al., 2023)不同,Con-RAG 通过训练而非仅推理时采样来提升一致性
- 启发:类似的组奖励思路可用于多语言一致性(同一问题的多语言回答应一致)
评分¶
- 创新性: ⭐⭐⭐⭐ — 将 GRPO 扩展到跨释义一致性优化是巧妙设计
- 实验充分性: ⭐⭐⭐⭐ — 覆盖短/多跳/长问答,两个模型,多基线对比
- 实用性: ⭐⭐⭐⭐ — 对高风险 RAG 部署有直接价值,松弛近似保证可扩展性
- 写作质量: ⭐⭐⭐⭐ — 框架图清晰,理论和实验对应良好
- 总体评价: ⭐⭐⭐⭐ — 填补了 RAG 一致性优化的空白,方法设计和实验都很扎实