Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders¶

会议: ICLR 2026
arXiv: 2512.08892
代码: GitHub
领域: RAG/可解释AI
关键词: 检索增强生成, 稀疏自编码器, 幻觉检测, 可解释性, 忠实性

一句话总结¶

提出 RAGLens，利用稀疏自编码器(SAE)从 LLM 内部激活中解耦出 RAG 幻觉专属特征，通过互信息特征选择 + 广义加性模型(GAM)构建轻量级可解释幻觉检测器，在多个基准上超越现有方法，并支持 token 级可解释反馈与幻觉缓解。

研究背景与动机¶

RAG 的核心问题：检索增强生成(RAG)通过外部检索文档增强 LLM 的事实性，但模型仍会产生与检索内容矛盾、编造细节或超出证据范围的幻觉输出。这种不忠实生成严重限制了在医疗、法律等高可靠性领域的部署。

现有方法的局限性： - 训练专用检测器：需要大规模高质量标注数据，适配成本高 - LLM-as-Judge：用外部 LLM 评判忠实性，但计算开销大、难以检测自身生成的幻觉、且解释不忠实于内部决策过程 - 内部表示探测：利用隐藏状态或注意力分数捕获幻觉信号，但神经元的多义性(polysemanticity)导致信号提取困难，检测精度不足

切入角度：机械可解释性(mechanistic interpretability)领域的 SAE 能从 LLM 隐藏状态中分离出单语义(monosemantic)特征——即每个特征对应一个具体的语义概念。那么，是否存在专门在 RAG 幻觉时被激活的 SAE 特征？如果有，能否用它们构建既准确又可解释的检测器？

RAG 幻觉 vs 通用幻觉：虽然已有工作用 SAE 检测通用 LLM 幻觉，但 RAG 场景存在检索证据与生成内容之间的复杂交互，幻觉模式更为独特，SAE 特征能否捕获这种动态尚不明确。

方法详解¶

整体框架：RAGLens 流水线¶

RAGLens 的核心思路是：冻结 LLM → 提取 SAE 特征 → 互信息筛选 → GAM 分类 → 输出可解释检测结果。

Step 1: SAE 特征提取 对 LLM 生成的每个 token \(y_t\)，取第 \(L\) 层的隐藏状态 \(h_t = \Phi_L(y_{1:t}, q, \mathcal{C})\)，然后通过预训练好的 SAE 编码器得到稀疏特征向量：

\[z_t = \mathcal{E}(h_t), \quad z_t \in \mathbb{R}^K\]

其中 \(K\) 是字典大小，每个位置只有少量特征被激活。

Step 2: 实例级特征汇总 由于标签是实例级别的，对 token 级激活做逐通道最大池化(channel-wise max pooling)：

\[\bar{z}_k = \max_{1 \leq t \leq T} z_{t,k}, \quad k = 1, \ldots, K\]

论文还给出了 max pooling 在稀疏激活条件下的理论证明(Theorem 1)：在 \(Tp \ll 1\) 的稀疏激活条件下，max pooling 后特征与标签的互信息线性依赖序列长度 \(T\)，有效放大信号、抑制噪声。

Step 3: 互信息特征选择 计算每个池化后特征 \(\bar{z}_k\) 与幻觉标签 \(\ell\) 之间的互信息 \(I(\bar{z}_k; \ell)\)，排序后选择 top-\(K'\) 个特征（\(K' \ll K\)），得到子向量 \(\tilde{\bar{z}} \in \mathbb{R}^{K'}\)。实际用 binning 方法估计 MI。

Step 4: 广义加性模型(GAM)分类 用 GAM 建模幻觉概率：

\[g(\mathbb{E}[\ell | \tilde{\bar{z}}]) = \beta_0 + \sum_{j=1}^{K'} f_j(\tilde{\bar{z}}_j)\]

其中每个单变量形状函数 \(f_j\) 用 bagged gradient boosting 学习。GAM 的加性结构保证了可解释性——每个特征对预测的贡献可直接可视化。

关键设计 1：中间层 SAE 特征最有信息量¶

在 Llama3.2-1B、Llama3-8B、Qwen3-0.6B、Qwen3-4B 上对全层进行实验，发现： - Summary 和 QA 任务：性能在中间层达到峰值 - Data2txt 任务：各层性能较为平坦 - 结论：中间层的 SAE 特征编码了最丰富的幻觉相关信号，过浅层信息不足、过深层可能被后续变换覆盖

关键设计 2：GAM 优于 MLP/XGBoost 等复杂模型¶

对比 Logistic Regression(LR)、GAM、MLP 和 XGBoost 作为分类器： - GAM 一致胜过 LR（因为单特征对输出的映射是非线性的） - GAM 也超过 MLP 和 XGBoost（因为 SAE 特征间几乎独立，加性假设成立） - GAM 额外提供可解释性，是性能和透明性的最佳平衡

关键设计 3：预激活特征优于后激活特征¶

对比 SAE 和 Transcoder 两种特征提取器以及激活函数前/后的信号： - 预激活(pre-activation)特征在三个数据集上一致优于后激活(post-activation) - SAE 和 Transcoder 性能接近，无明显优劣 - 结论：激活函数的位置比架构选择更关键

可解释性与幻觉缓解¶

局部解释：GAM 的加性结构使每个预测可分解为各特征的贡献之和。将激活对齐到 token 位置，得到 token 级反馈，精准定位不可靠的文本片段（如虚构的数字、日期、实体名称）。

全局解释：每个 SAE 特征对应语义一致的概念（如特征 22790 = "无支撑的数字/时间细节"，特征 17721 = "有据可查的高显著性 token"），GAM 的形状函数展示特征值到幻觉风险的稳定映射。

缓解策略：将检测结果作为实例级警告或 token 级高亮反馈给 LLM，引导其修正幻觉内容。Token 级反馈比实例级反馈更有效。

实验¶

实验设置¶

数据集：RAGTruth（多任务：摘要/QA/数据转文本）、Dolly (Accurate Context)、AggreFact、TofuEval
模型：Llama2-7B/13B、Llama3.2-1B、Llama3.1-8B、Qwen3-0.6B/4B
指标：Balanced Accuracy (Acc)、Macro F1、AUC
对比方法：Prompt、LLM-as-Judge (ChainPoll/RAGAS/TruLens/RefCheck)、不确定性方法 (SelfCheckGPT/Perplexity/EigenScore)、内部表示方法 (SEP/SAPLMA/ITI/Focus/ReDeEP) 等 16 种基线

表1：主要检测性能对比（RAGTruth & Dolly）¶

方法	RAGTruth-7B AUC	RAGTruth-7B F1	Dolly-7B AUC	Dolly-7B F1	RAGTruth-13B AUC	Dolly-13B AUC
ChainPoll	0.6738	0.7006	0.6593	0.5581	0.7414	0.7070
RAGAS	0.7290	0.6667	0.6648	0.6392	0.7541	0.6412
ReDeEP	0.7458	0.7190	0.7949	0.7833	0.8244	0.8420
RAGLens	0.8413	0.7636	0.8764	0.8070	0.8964	0.8568

RAGLens 在所有设置上全面超越所有基线，AUC 在所有设置 ≥ 0.84。

表2：跨数据集/跨任务泛化（AUC）¶

训练集 → 测试集	RAGTruth	AggreFact	TofuEval
None (CoT)	0.4842	0.5741	0.5562
RAGTruth	0.8806	0.8019	0.7637
AggreFact	0.5330	0.8330	0.6123
TofuEval	0.7747	0.6161	0.7846

在多样性高的数据集(RAGTruth)上训练的检测器泛化能力显著优于单任务数据集。

表3：幻觉缓解效果¶

评判方式	原始幻觉率	+实例级反馈	+Token级反馈
Llama3.3-70B	43.78%	42.22%	39.11%
GPT-4o	37.78%	36.44%	34.22%
GPT-o3	64.44%	60.44%	58.88%
人工标注	71.11%	62.22%	55.56%

Token 级反馈（利用可解释性高亮可疑 token）在所有评估者下均比实例级反馈更有效，人工评估中将幻觉率从 71.11% 降至 55.56%。

关键发现¶

LLM "知道得比说出来的多"：SAE 特征揭示了 CoT 推理无法一致捕获的潜在忠实性信号，跨模型实验表明 SAE 检测器一致优于模型自身的 CoT 判断。
模型规模影响内部知识质量：更大的 LLM 通过 SAE 检测器获得更高性能，Qwen3-0.6B 虽然 CoT 表现尚可，但 SAE 检测器落后于大模型，说明内部知识与模型规模相关性高于训练流程。
特定 SAE 特征具有明确语义：如特征 22790 对应"无上下文支撑的数字/时间细节"，当激活强度升高时幻觉概率单调上升；特征 17721 对应"有据可查的高显著性 token"，与幻觉负相关。
跨域泛化依赖训练数据多样性：在包含多任务的 RAGTruth 上训练的检测器跨域泛化最好，Summary→QA 的迁移效果优于 Data2txt→其他。
Max pooling 有理论保障：在稀疏激活条件下，max pooling 后互信息与序列长度 \(T\) 线性增长，有效放大微弱的幻觉信号。

亮点¶

首个系统验证 SAE 用于 RAG 幻觉检测的工作：填补了 SAE 在 RAG 特定幻觉场景的研究空白，提出完整的检测-解释-缓解流水线。
轻量级+可解释：仅需少量 SAE 特征 + 简单 GAM 分类器，无需微调 LLM、无需外部 LLM 调用，同时提供 token 级归因和特征级全局解释。
理论 + 实验双重支撑：max pooling 的信息论证明(Theorem 1)和大量消融实验（层选择、特征数量、分类器对比、提取器对比）使设计选择有据可循。
跨模型应用灵活：虽然 SAE 特征不跨模型迁移，但 RAGLens 检测器可灵活应用于其他 LLM 生成的文本，实用性强。
反事实验证：通过对检索文档做反事实扰动，验证所选 SAE 特征确实对 RAG 场景的幻觉模式敏感。

局限性¶

依赖预训练 SAE 的可用性：需要目标 LLM 有对应的开源 SAE 权重（如 Gemma Scope、EleutherAI SAE），对闭源模型不适用。
幻觉标签为实例级：当前方法无法细粒度地区分实例内哪个 claim 是幻觉，token 级归因是近似的、依赖启发式对齐。
缓解效果有限：Token 级反馈虽优于实例级，但幻觉率仍然较高（人工评估 55.56%），说明单靠检测信号做后处理的缓解能力有上限。
泛化依赖训练分布：在单一任务数据集训练的检测器跨域性能下降明显，实际部署需要多样化训练数据。
计算开销未详细报告：虽然声称轻量，但 SAE 编码 + MI 计算 + GAM 训练的端到端成本和延迟未有系统基准测试。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性将 SAE 应用于 RAG 幻觉检测，提出完整 pipeline
实验充分度: ⭐⭐⭐⭐⭐ 6 个模型 × 4 个数据集 × 16 种基线 + 全面消融 + 跨模型/跨域实验 + 可解释性案例 + 缓解实验
写作质量: ⭐⭐⭐⭐ 结构清晰、理论严谨，但部分实验细节在附录中
实用价值: ⭐⭐⭐⭐ 轻量可解释的幻觉检测方案，对 RAG 系统可靠性有直接价值
总评: ⭐⭐⭐⭐ 扎实的可解释 AI + RAG 交叉工作，实验全面、方法新颖