Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement¶

会议: ICLR2026
arXiv: 2506.05154
代码: lcy80366872/knowledgeable-R1
领域: causal_inference
关键词: RAG, Parametric Knowledge, Reinforcement Learning, Knowledge Conflict, GRPO

一句话总结¶

提出 Knowledgeable-R1，一个基于强化学习的框架，通过联合采样参数知识（PK）和上下文知识（CK）的轨迹，结合局部/全局优势计算和自适应不对称优势变换，使 LLM 在 RAG 场景中能够抵抗误导性检索上下文的干扰，同时保留对可靠上下文的利用能力。

背景与动机¶

RAG 通过引入外部检索内容来减少 LLM 的幻觉和事实错误，但当检索到的上下文包含噪声、反事实或内部矛盾信息时，LLM 往往会过度依赖这些外部信息而压制自身的参数知识，即所谓的 context dominance 现象。现有方法存在明显不足：

Prompting 方法（如 Astute-RAG）：引导模型验证/过滤上下文，但增加计算复杂度且缺乏通用决策规则
Decoding 方法（如 CK-PLUG）：调整 token 分布以缓解冲突，但同样缺乏泛化能力
Fine-tuning 方法（如 Self-RAG, InFO-RAG）：需要复杂的数据标注流程，灵活性和可扩展性受限
标准 GRPO：采样空间局限于带检索输入的 query+context，难以让模型探索"忽略上下文回退到参数知识"这一关键但稀有的决策

核心问题¶

如何让 LLM 在 RAG 系统中动态决策：何时信任检索到的上下文知识（CK），何时回退到自身参数知识（PK），并在不损害正常 RAG 性能的前提下显著提升对误导性上下文的鲁棒性？

方法详解¶

1. 三策略联合采样¶

对每个 query \(q\)，定义三种解码策略：

策略	输入	输出	行为
PK（参数知识）	\(p\) = query	\(o\)（基于参数知识的回答）	纯参数知识回答
CK（上下文感知）	\(p'\) = query+context	\(o'\)（利用上下文的回答）	利用可靠上下文
RPK（鲁棒参数知识）	\(p'\) = query+context	\(o\)（与 PK 一致的回答）	在误导上下文下回退到 PK

关键设计：RPK 不独立生成答案，而是将 PK 轨迹 \(o^{pk}\) 作为目标，在 query+context 输入 \(p'\) 下重新评估其对数概率，鼓励模型即使在误导上下文存在时仍能维持参数知识的 token。

2. 局部-全局优势计算¶

PK 的优势：仅使用局部优势 \(A_i^{pk\text{-}local}\)（同策略内 Z-score 归一化），确保 query-only 回答尽可能准确
CK 的优势：局部 + 全局优势之和 \(A_j' = A_j^{ck\text{-}local} + A_j^{ck\text{-}global}\)，全局项在 \(p'\) 下的 CK 和 RPK 联合池中归一化，使 CK 在两种知识都正确时优先（因为上下文更新更及时）
RPK 的优势：仅全局优势 \(\hat{A}_i^{global}\)，在同一输入 \(p'\) 下与 CK 轨迹竞争，当上下文误导时 RPK 获得正优势

全局优势机制解决了组内轨迹奖励一致时仍能区分 CK vs. RPK 偏好的问题。

3. 知识平衡调制（Knowledge Balance Modulation）¶

引入不对称优势变换 \(T(\hat{A}_i; \beta)\)：正优势保持不变，负优势乘以系数 \(\beta \in [0.01, 1]\)。\(\beta\) 基于 mini-batch 中 CK 和 RPK 的累积优势动态调整：

\[\beta \leftarrow \text{clip}\left(\frac{S_{ck} - S_{rpk+}}{S_{rpk-}}, 0.01, 1\right)\]

当 CK 大幅优于 RPK 时 \(\beta\) 降低，减少 RPK 负优势的惩罚，鼓励更多参数知识探索；差距缩小时 \(\beta\) 增大，训练更谨慎。\(\beta\) 在约 8 步内收敛到稳定值。

4. 策略优化¶

采用 PPO-style 裁剪更新，总目标为三部分加权和：

\[\mathcal{J}(\theta) = \lambda_{pk} J_{PK} + \lambda_{ck} J_{CK} + \lambda_{rpk} J_{RPK}\]

实验中 \(\lambda_{pk} = \lambda_{ck} = \lambda_{rpk} = 1.0\)，裁剪参数 \(\epsilon = 0.2\)。

实验关键数据¶

在 5 种上下文场景下评估（正确/对抗/自冲突/无关/部分相关），基座模型 Qwen2.5-7B-Instruct：

场景	RAG Prompting	GRPO w/ RAG	Knowledgeable-R1	提升
S1 正确上下文 (PC-QA)	74.35%	80.03%	80.90%	+6.54%
S2 对抗上下文 (NC-MR)	13.47%	26.94%	43.94%	+30.47%
S2 对抗上下文 (NC-MC)	8.06%	19.74%	37.34%	+29.28%
S3 自冲突上下文 (SC)	59.50%	75.33%	76.33%	+15.92%
S4 无关上下文 (ExplainPE)	62.21%	66.50%	67.57%	+5.36%
S5 部分相关 (HotpotQA)	20.36%	27.93%	31.45%	+11.09%

在参数知识可回答子集上，NC-MR/MC/QA 平均比 GRPO w/ RAG 提升 +22.89%。Llama3.1-8B-Instruct 上也有一致的提升。

消融实验关键发现： - 移除 \(J_{RPK}\) 后 TIFE（参数正确、上下文错误）场景性能下降最大（MC 下降 33.12%） - 移除自适应 \(\beta\) 后 TIFE 性能下降 27.39%（MC） - 移除全局优势 \(A^{ck\text{-}global}\) 导致 TIFE 下降显著

亮点¶

问题定义精准：将 RAG 中的知识冲突问题明确分解为三个子目标（参数正确性、上下文利用、鲁棒回退），设计针对性的联合采样策略
RPK 设计巧妙：不生成新轨迹，而是复用 PK 轨迹在 query+context 输入下重新评估，以低成本实现"有上下文但忽略它"的探索
自适应 \(\beta\) 无需手调超参数即可在不同数据集上保持鲁棒，且收敛迅速
泛化能力强：在 2WikiMultiHopQA 和 MuSiQue 上未经微调即取得显著提升
仅用 1% 错误上下文训练仍优于 GRPO，说明学到的是真正的决策边界而非数据统计

局限性 / 可改进方向¶

S3（自冲突）和 S5（部分相关）场景提升相对有限，上下文内部矛盾的处理仍有空间
未深入分析不同冲突比例（如 5 条检索结果中 1 条错 vs. 4 条错）下的敏感度
联合采样使约一半 rollout 预算用于 query-only PK 轨迹，S1 正确上下文场景比 GRPO w/ RAG 略低（可通过调整 \(\lambda_{ck}\) 权重缓解）
仅在知识密集型 QA 任务上验证，未探索更复杂的多源检索环境

与相关工作的对比¶

vs. GRPO w/ RAG：GRPO 仅在 query+context 下采样，缺乏参数知识探索；Knowledgeable-R1 通过 PK/RPK 分支显式鼓励参数知识回退，S2 场景平均提升 22.89%
vs. Self-RAG / InFO-RAG：这些 SFT 方法依赖复杂标注流程；Knowledgeable-R1 通过 RL 自动学习决策规则，无需显式标注"何时信任上下文"
vs. CK-PLUG：CK-PLUG 在解码时调整 token 概率但效果有限（S2 反而更差）；Knowledgeable-R1 直接在训练阶段优化知识利用策略
vs. Astute-RAG：Astute-RAG 通过 prompting 引导模型过滤上下文，但在检索无关场景下表现欠佳；Knowledgeable-R1 全面优于它

启发与关联¶

思路可推广到任何"多源信息融合"场景，如多模态中视觉与文本信息冲突时的知识选择
RPK 的"共享轨迹不同条件评估"思想可借鉴到其他 RL 训练框架中，减少额外采样开销
自适应 \(\beta\) 的 reward shaping 策略可用于解决 RL 训练中探索不足的通用问题

评分¶

新颖性: 8/10 — 三策略联合采样+RPK 设计是创新点，但 PPO-style 优化本身不新
实验充分度: 8/10 — 5 种场景、4 个基座模型、详细消融，但缺少冲突比例敏感度分析
写作质量: 7/10 — 方法描述清晰但公式符号较多，部分 notation 可简化
价值: 8/10 — 解决 RAG 中关键的知识冲突问题，且方法简洁实用