Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders¶
会议: ICLR 2026
arXiv: 2512.08892
代码: GitHub
领域: RAG/可解释AI
关键词: 检索增强生成, 稀疏自编码器, 幻觉检测, 可解释性, 忠实性
一句话总结¶
提出 RAGLens,利用稀疏自编码器(SAE)从 LLM 内部激活中解耦出 RAG 幻觉专属特征,通过互信息特征选择 + 广义加性模型(GAM)构建轻量级可解释幻觉检测器,在多个基准上超越现有方法,并支持 token 级可解释反馈与幻觉缓解。
研究背景与动机¶
RAG 的核心问题:检索增强生成(RAG)通过外部检索文档增强 LLM 的事实性,但模型仍会产生与检索内容矛盾、编造细节或超出证据范围的幻觉输出。这种不忠实生成严重限制了在医疗、法律等高可靠性领域的部署。
现有方法的局限性: - 训练专用检测器:需要大规模高质量标注数据,适配成本高 - LLM-as-Judge:用外部 LLM 评判忠实性,但计算开销大、难以检测自身生成的幻觉、且解释不忠实于内部决策过程 - 内部表示探测:利用隐藏状态或注意力分数捕获幻觉信号,但神经元的多义性(polysemanticity)导致信号提取困难,检测精度不足
切入角度:机械可解释性(mechanistic interpretability)领域的 SAE 能从 LLM 隐藏状态中分离出单语义(monosemantic)特征——即每个特征对应一个具体的语义概念。那么,是否存在专门在 RAG 幻觉时被激活的 SAE 特征?如果有,能否用它们构建既准确又可解释的检测器?
RAG 幻觉 vs 通用幻觉:虽然已有工作用 SAE 检测通用 LLM 幻觉,但 RAG 场景存在检索证据与生成内容之间的复杂交互,幻觉模式更为独特,SAE 特征能否捕获这种动态尚不明确。
方法详解¶
整体框架:RAGLens 流水线¶
RAGLens 的核心思路是:冻结 LLM → 提取 SAE 特征 → 互信息筛选 → GAM 分类 → 输出可解释检测结果。
Step 1: SAE 特征提取 对 LLM 生成的每个 token \(y_t\),取第 \(L\) 层的隐藏状态 \(h_t = \Phi_L(y_{1:t}, q, \mathcal{C})\),然后通过预训练好的 SAE 编码器得到稀疏特征向量:
其中 \(K\) 是字典大小,每个位置只有少量特征被激活。
Step 2: 实例级特征汇总 由于标签是实例级别的,对 token 级激活做逐通道最大池化(channel-wise max pooling):
论文还给出了 max pooling 在稀疏激活条件下的理论证明(Theorem 1):在 \(Tp \ll 1\) 的稀疏激活条件下,max pooling 后特征与标签的互信息线性依赖序列长度 \(T\),有效放大信号、抑制噪声。
Step 3: 互信息特征选择 计算每个池化后特征 \(\bar{z}_k\) 与幻觉标签 \(\ell\) 之间的互信息 \(I(\bar{z}_k; \ell)\),排序后选择 top-\(K'\) 个特征(\(K' \ll K\)),得到子向量 \(\tilde{\bar{z}} \in \mathbb{R}^{K'}\)。实际用 binning 方法估计 MI。
Step 4: 广义加性模型(GAM)分类 用 GAM 建模幻觉概率:
其中每个单变量形状函数 \(f_j\) 用 bagged gradient boosting 学习。GAM 的加性结构保证了可解释性——每个特征对预测的贡献可直接可视化。
关键设计 1:中间层 SAE 特征最有信息量¶
在 Llama3.2-1B、Llama3-8B、Qwen3-0.6B、Qwen3-4B 上对全层进行实验,发现: - Summary 和 QA 任务:性能在中间层达到峰值 - Data2txt 任务:各层性能较为平坦 - 结论:中间层的 SAE 特征编码了最丰富的幻觉相关信号,过浅层信息不足、过深层可能被后续变换覆盖
关键设计 2:GAM 优于 MLP/XGBoost 等复杂模型¶
对比 Logistic Regression(LR)、GAM、MLP 和 XGBoost 作为分类器: - GAM 一致胜过 LR(因为单特征对输出的映射是非线性的) - GAM 也超过 MLP 和 XGBoost(因为 SAE 特征间几乎独立,加性假设成立) - GAM 额外提供可解释性,是性能和透明性的最佳平衡
关键设计 3:预激活特征优于后激活特征¶
对比 SAE 和 Transcoder 两种特征提取器以及激活函数前/后的信号: - 预激活(pre-activation)特征在三个数据集上一致优于后激活(post-activation) - SAE 和 Transcoder 性能接近,无明显优劣 - 结论:激活函数的位置比架构选择更关键
可解释性与幻觉缓解¶
局部解释:GAM 的加性结构使每个预测可分解为各特征的贡献之和。将激活对齐到 token 位置,得到 token 级反馈,精准定位不可靠的文本片段(如虚构的数字、日期、实体名称)。
全局解释:每个 SAE 特征对应语义一致的概念(如特征 22790 = "无支撑的数字/时间细节",特征 17721 = "有据可查的高显著性 token"),GAM 的形状函数展示特征值到幻觉风险的稳定映射。
缓解策略:将检测结果作为实例级警告或 token 级高亮反馈给 LLM,引导其修正幻觉内容。Token 级反馈比实例级反馈更有效。
实验¶
实验设置¶
- 数据集:RAGTruth(多任务:摘要/QA/数据转文本)、Dolly (Accurate Context)、AggreFact、TofuEval
- 模型:Llama2-7B/13B、Llama3.2-1B、Llama3.1-8B、Qwen3-0.6B/4B
- 指标:Balanced Accuracy (Acc)、Macro F1、AUC
- 对比方法:Prompt、LLM-as-Judge (ChainPoll/RAGAS/TruLens/RefCheck)、不确定性方法 (SelfCheckGPT/Perplexity/EigenScore)、内部表示方法 (SEP/SAPLMA/ITI/Focus/ReDeEP) 等 16 种基线
表1:主要检测性能对比(RAGTruth & Dolly)¶
| 方法 | RAGTruth-7B AUC | RAGTruth-7B F1 | Dolly-7B AUC | Dolly-7B F1 | RAGTruth-13B AUC | Dolly-13B AUC |
|---|---|---|---|---|---|---|
| ChainPoll | 0.6738 | 0.7006 | 0.6593 | 0.5581 | 0.7414 | 0.7070 |
| RAGAS | 0.7290 | 0.6667 | 0.6648 | 0.6392 | 0.7541 | 0.6412 |
| ReDeEP | 0.7458 | 0.7190 | 0.7949 | 0.7833 | 0.8244 | 0.8420 |
| RAGLens | 0.8413 | 0.7636 | 0.8764 | 0.8070 | 0.8964 | 0.8568 |
RAGLens 在所有设置上全面超越所有基线,AUC 在所有设置 ≥ 0.84。
表2:跨数据集/跨任务泛化(AUC)¶
| 训练集 → 测试集 | RAGTruth | AggreFact | TofuEval |
|---|---|---|---|
| None (CoT) | 0.4842 | 0.5741 | 0.5562 |
| RAGTruth | 0.8806 | 0.8019 | 0.7637 |
| AggreFact | 0.5330 | 0.8330 | 0.6123 |
| TofuEval | 0.7747 | 0.6161 | 0.7846 |
在多样性高的数据集(RAGTruth)上训练的检测器泛化能力显著优于单任务数据集。
表3:幻觉缓解效果¶
| 评判方式 | 原始幻觉率 | +实例级反馈 | +Token级反馈 |
|---|---|---|---|
| Llama3.3-70B | 43.78% | 42.22% | 39.11% |
| GPT-4o | 37.78% | 36.44% | 34.22% |
| GPT-o3 | 64.44% | 60.44% | 58.88% |
| 人工标注 | 71.11% | 62.22% | 55.56% |
Token 级反馈(利用可解释性高亮可疑 token)在所有评估者下均比实例级反馈更有效,人工评估中将幻觉率从 71.11% 降至 55.56%。
关键发现¶
- LLM "知道得比说出来的多":SAE 特征揭示了 CoT 推理无法一致捕获的潜在忠实性信号,跨模型实验表明 SAE 检测器一致优于模型自身的 CoT 判断。
- 模型规模影响内部知识质量:更大的 LLM 通过 SAE 检测器获得更高性能,Qwen3-0.6B 虽然 CoT 表现尚可,但 SAE 检测器落后于大模型,说明内部知识与模型规模相关性高于训练流程。
- 特定 SAE 特征具有明确语义:如特征 22790 对应"无上下文支撑的数字/时间细节",当激活强度升高时幻觉概率单调上升;特征 17721 对应"有据可查的高显著性 token",与幻觉负相关。
- 跨域泛化依赖训练数据多样性:在包含多任务的 RAGTruth 上训练的检测器跨域泛化最好,Summary→QA 的迁移效果优于 Data2txt→其他。
- Max pooling 有理论保障:在稀疏激活条件下,max pooling 后互信息与序列长度 \(T\) 线性增长,有效放大微弱的幻觉信号。
亮点¶
- 首个系统验证 SAE 用于 RAG 幻觉检测的工作:填补了 SAE 在 RAG 特定幻觉场景的研究空白,提出完整的检测-解释-缓解流水线。
- 轻量级+可解释:仅需少量 SAE 特征 + 简单 GAM 分类器,无需微调 LLM、无需外部 LLM 调用,同时提供 token 级归因和特征级全局解释。
- 理论 + 实验双重支撑:max pooling 的信息论证明(Theorem 1)和大量消融实验(层选择、特征数量、分类器对比、提取器对比)使设计选择有据可循。
- 跨模型应用灵活:虽然 SAE 特征不跨模型迁移,但 RAGLens 检测器可灵活应用于其他 LLM 生成的文本,实用性强。
- 反事实验证:通过对检索文档做反事实扰动,验证所选 SAE 特征确实对 RAG 场景的幻觉模式敏感。
局限性¶
- 依赖预训练 SAE 的可用性:需要目标 LLM 有对应的开源 SAE 权重(如 Gemma Scope、EleutherAI SAE),对闭源模型不适用。
- 幻觉标签为实例级:当前方法无法细粒度地区分实例内哪个 claim 是幻觉,token 级归因是近似的、依赖启发式对齐。
- 缓解效果有限:Token 级反馈虽优于实例级,但幻觉率仍然较高(人工评估 55.56%),说明单靠检测信号做后处理的缓解能力有上限。
- 泛化依赖训练分布:在单一任务数据集训练的检测器跨域性能下降明显,实际部署需要多样化训练数据。
- 计算开销未详细报告:虽然声称轻量,但 SAE 编码 + MI 计算 + GAM 训练的端到端成本和延迟未有系统基准测试。
相关工作¶
- RAG 幻觉检测:Manakul et al. 2023 (SelfCheckGPT), Bao et al. 2024 (HHEM), Sun et al. 2025 (ReDeEP), Li et al. 2024 (LLM-as-Judge 系列)
- SAE 与可解释性:Bricken et al. 2023 (字典学习+单语义), Huben et al. 2023, Shu et al. 2025;应用于幻觉检测的 Ferrando et al. 2025, Suresh et al. 2025
- 广义加性模型(GAM):Lou et al. 2012, Nori et al. 2019 (InterpretML/EBM)
- 内部表示探测:Azaria & Mitchell 2023 (SAPLMA), Han et al. 2024, Zhou et al. 2025
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性将 SAE 应用于 RAG 幻觉检测,提出完整 pipeline
- 实验充分度: ⭐⭐⭐⭐⭐ 6 个模型 × 4 个数据集 × 16 种基线 + 全面消融 + 跨模型/跨域实验 + 可解释性案例 + 缓解实验
- 写作质量: ⭐⭐⭐⭐ 结构清晰、理论严谨,但部分实验细节在附录中
- 实用价值: ⭐⭐⭐⭐ 轻量可解释的幻觉检测方案,对 RAG 系统可靠性有直接价值
- 总评: ⭐⭐⭐⭐ 扎实的可解释 AI + RAG 交叉工作,实验全面、方法新颖
相关论文¶
- [ACL 2026] RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding
- [CVPR 2026] Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation
- [NeurIPS 2025] Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
- [ICLR 2026] Long-Context Generalization with Sparse Attention
- [ACL 2026] Retrievals Can Be Detrimental: Unveiling the Backdoor Vulnerability of Retrieval-Augmented Diffusion Models