How Retrieved Context Shapes Internal Representations in RAG¶

会议: ACL 2026
arXiv: 2602.20091
代码: 无
领域: 信息检索 / RAG
关键词: 检索增强生成, 隐藏表示, 表示漂移, 知识冲突, 可解释性

一句话总结¶

本文从隐藏表示的角度系统分析 RAG 中检索文档如何影响 LLM 内部状态，发现了五个关键模式：随机文档引发大表示漂移并触发拒绝行为、相关文档主要确认而非改变参数化知识、单个相关文档能锚定多文档场景中的表示、后层逐步强调参数化知识从而限制检索证据的影响、以及 LLM 在早期层就能区分随机文档但到最后层仍无法可靠区分干扰文档和相关文档。

研究背景与动机¶

领域现状：RAG 已成为增强 LLM 的主流方法，通过在生成时引入外部文档来提升事实准确性。然而，检索到的文档集通常包含相关性和有用性参差不齐的混合内容。

现有痛点：(1) 现有 RAG 研究主要从输出行为（准确率、幻觉率）分析，无法区分性能变化是来自有效的证据整合、参数化知识的抑制还是模型的不确定性响应；(2) 不清楚检索文档在 LLM 内部如何被处理——是被整合进推理还是被忽略；(3) 缺乏对不同类型文档（相关/干扰/随机）如何影响内部表示的系统研究。

核心矛盾：仅从输出层面观察 RAG 行为就像看黑箱——同样的错误输出可能来自完全不同的内部处理机制。理解 RAG 需要深入内部表示层面。

本文目标：系统分析不同类型检索文档如何影响 LLM 隐藏状态，以及内部表示变化如何关联到下游生成行为。

切入角度：使用控制实验——固定 RAG 管道，系统变化文档的相关性类型（相关/干扰/随机）和数量组合，对比有/无上下文的隐藏表示差异。

核心 idea：检索文档对 LLM 内部表示的影响远比输出层面观察到的更微妙——相关文档几乎不改变表示（仅确认已有知识），而随机文档反而引发最大的表示漂移（触发拒绝模式）。

方法详解¶

整体框架¶

分析框架包括：(1) 数据层——四个 QA 数据集（TriviaQA、NQ、PopQA、StrategyQA），三个 LLM（Gemma3-27B、Llama4-17B、Qwen3-Next-80B）；(2) 检索层——MassiveDS 数据库（1.4 万亿 token）+ Contriever 检索器，为每个查询检索 top-20 文档并用 GPT-5 分类为相关/干扰/随机；(3) 分析层——提取最后 prompt token 的各层隐藏状态 \(h \in \mathbb{R}^{L \times D}\)，使用 PCA 可视化、余弦相似度和表示可分性进行分析。

关键设计¶

控制的文档分类体系:
- 功能：将检索文档分为三类以隔离不同类型上下文的影响
- 核心思路：相关文档（包含真实答案或直接支持答案的信息）、干扰文档（与查询语义相似但不包含支持推导答案的信息，可能误导模型）、随机文档（与查询语义相似度低，无有用信息）。使用 GPT-5 进行分类并经人工验证
- 设计动机：真实检索场景中三类文档混合出现。分离研究各类型的影响是理解 RAG 机制的前提
查询难度分层:
- 功能：区分 easy（模型无检索也能回答）和 hard（需要检索才能回答）查询
- 核心思路：对每个查询，先用纯查询（无检索）测试模型，能正确回答的标记为 easy，否则为 hard。这允许分析检索文档对"已知知识"和"未知知识"的不同影响
- 设计动机：模型已有参数化知识时和缺乏知识时对检索文档的处理机制可能完全不同
层级表示分析:
- 功能：揭示不同层如何处理检索上下文
- 核心思路：在每一层提取最后 prompt token 的隐藏状态，用 PCA 可视化不同上下文类型的表示分布。追踪从浅层到深层的表示演化模式
- 设计动机：Transformer 不同层有不同功能——浅层做词法处理，中层做语义整合，深层做决策。层级分析能揭示检索信息在何处被整合或被覆盖

损失函数 / 训练策略¶

本文为分析性工作，不涉及模型训练。使用预训练的 LLM（指令微调和基础版本）进行推理和表示提取。

实验关键数据¶

主实验¶

不同上下文类型对响应行为的影响（Gemma3-27B, TriviaQA）

上下文类型	Easy 正确率	Hard 正确率	Easy 拒绝率	Hard 拒绝率
无上下文	~90%	~0%	~3%	~12%
相关文档	90.4%	65.2%	3.1%	7.0%
干扰文档	8.5%	0.7%	61.8%	74.2%
随机文档	1.7%	0%	97.6%	98.1%

多文档场景中的表现

上下文组合	Easy 正确率	Hard 正确率
仅相关	90.4%	65.2%
1相关 + 3干扰	82.6%	57.1%
1相关 + 3随机	87.7%	60.2%
仅干扰	8.5%	0.7%
仅随机	1.7%	0%

消融实验¶

观察	发现	实际含义
基础 vs 指令微调	基础模型无表示漂移，拒绝率 <20%	拒绝行为是指令微调产物
20 文档无过滤	准确率接近仅相关文档	LLM 能自主抑制噪声
层级分析	L12 无差异→L23 随机可分→L35 相关/干扰仍混合	语义区分从粗到细

关键发现¶

Observation 1：随机文档引发最大表示漂移（反直觉），与模型大量拒绝回答行为强相关。指令微调放大了这一效应
Observation 2：相关文档几乎不改变表示——主要作为确认信号增强置信度（log-likelihood 显著提升），而非引入新信息
Observation 3：多文档场景中，单个相关文档即可锚定表示，抑制额外噪声的影响
Observation 4：早期层先区分随机文档（L23），相关和干扰文档直到最后层仍难以完全分离
Observation 5：后层逐步将相关文档表示拉向无文档表示，说明深层更强调参数化知识

亮点与洞察¶

从表示层面解释了 RAG 的工作机制——相关文档是"确认器"而非"信息注入器"，这改变了对 RAG 作用方式的理解
发现指令微调引入的拒绝行为是双刃剑：对随机文档有保护作用，但也导致模型在本可回答的 easy 查询上因随机上下文而拒绝
实用启示：增加检索广度是安全的——只要有一个相关文档，模型就能抑制噪声，无需激进的文档过滤

局限与展望¶

分析主要基于 QA 任务，对长文本生成等任务的适用性未验证
使用 GPT-5 做文档分类可能引入系统偏差
未分析注意力机制如何实现表示的锚定效应
未来可研究如何利用表示漂移信号来自动检测检索质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从隐藏表示角度系统分析 RAG，五个观察都是新发现
实验充分度: ⭐⭐⭐⭐ 四个数据集、三个模型、单/多文档设定，但缺少非 QA 任务
写作质量: ⭐⭐⭐⭐⭐ 分析逻辑清晰，发现的实践含义阐述充分
价值: ⭐⭐⭐⭐⭐ 为 RAG 系统设计提供了表示层面的理论基础和实用指导