跳转至

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

会议: ICLR 2026
arXiv: 2509.21875
代码:
领域: 视频理解
关键词: RAG幻觉检测, 外部上下文利用, 内部知识利用, 最大均值差异, 信息处理率

一句话总结

提出 Lumina 框架,通过"上下文-知识信号"检测RAG系统中的幻觉:用MMD度量外部上下文利用程度,用跨层token预测演化度量内部知识利用程度,无需超参调优即可泛化。

研究背景与动机

RAG系统旨在通过检索的外部文档来减少LLM幻觉,但即便提供了正确充分的上下文,RAG系统仍会产生幻觉。

根本原因:模型在内部知识与外部上下文之间的平衡失调——当模型过度依赖内部参数知识而忽视检索到的外部上下文时,幻觉就会发生。

现有方法(如ReDeEP、SEReDeEP)虽验证了"内外知识利用"这一方向的有效性,但存在两大局限: 1. 超参依赖严重:需要选择特定的attention head和transformer层来计算分数,选择过程需大量调优,且参数因数据集和模型而异 2. 缺乏验证:虽展示了分数与幻觉的相关性,但未验证分数是否真正反映了外部上下文/内部知识的"利用程度"

方法详解

整体框架

Lumina的核心假设(Conjecture 1):当 \(\mathcal{I}_{p_\theta}(a|q,d) \gg \mathcal{E}_{p_\theta}(a|q,d)\) 时(内部知识利用远大于外部上下文利用),响应更可能是幻觉。

token级幻觉分数定义为:

\[\mathcal{H}_t(a_t|q,d,a_{<t}) = \lambda \cdot \mathcal{I}_{p_\theta}(a_t|q,d,a_{<t}) - (1-\lambda) \cdot \mathcal{E}_{p_\theta}(a_t|q,d,a_{<t})\]

响应级分数为token级分数的均值:\(\mathcal{H}_r(a|q,d) = \frac{1}{T}\sum_{t=1}^{T} \mathcal{H}_t\)

关键设计

1. 外部上下文利用度量(MMD方法)

核心思想:如果LLM有效利用了外部上下文,那么将相关文档替换为随机文档应该显著改变token概率分布。

定义两个分布: - \(P(E_v) = p_\theta(v|q,d,a_{<t})\)(基于检索文档的token概率分布) - \(Q(E_v) = p_\theta(v|q,d',a_{<t})\)(基于随机文档的token概率分布)

用最大均值差异(MMD)度量两分布的距离:

\[\mathcal{E}_{p_\theta}(a_t|q,d,a_{<t}) = \text{MMD}_k^2(P, Q)\]

展开为token嵌入空间上的核函数计算:

\[\mathcal{E} = \sum_{u,v} P(E_u)P(E_v)k(E_u,E_v) + \sum_{u,v} Q(E_u)Q(E_v)k(E_u,E_v) - 2\sum_{u,v} P(E_u)Q(E_v)k(E_u,E_v)\]

采用余弦核 \(k_{\cos}(E_u, E_v) = \frac{1}{2}(1 + \frac{E_u^T E_v}{\|E_u\|_2 \|E_v\|_2})\)

优势:非参数化、LLM无关,无需选择特定attention head或layer。

2. 内部知识利用度量(信息处理率)

核心思想:通过logit lens将每层隐状态投影到token概率空间,追踪跨层预测的演化。如果中间层的预测直到后面的层才收敛到最终输出,说明模型在层间"添加了更多信息",即更依赖内部知识。

信息处理率定义:

\[\mathcal{R}_{p_\theta}(x_{<t}) = \frac{\sum_{l=1}^{L-1}(1 - \min\{\frac{[f(h_{t,l})]_{x_{t,1}}}{p_\theta(x_{t,1}|x_{<t})}, 1\}) \cdot l}{\sum_{l'=1}^{L-1} \frac{l'}{H(f(h_{t,l'}))}}\]

其中 \(f(\cdot) = \text{Softmax}(\text{LogitLens}(\cdot))\)\(H(\cdot)\) 为熵函数。

  • 分子:度量每层对最终预测的"未收敛程度",按层深度加权(强调后层处理)
  • 分母:基于预测熵的自适应归一化(给予确定性高的层更高权重)

3. 统计验证框架

提出4个可验证蕴含来验证度量的合理性: - H1:有检索文档的生成应比无文档有更高的外部上下文利用 - H2:摘要任务应比QA任务有更高的外部上下文利用 - H3:无检索文档时应比有文档时需要更多内部知识 - H4:数据-文本生成应比摘要需要更多内部知识

在4个LLM上所有假设均以 \(p < 0.001\) 通过检验。

损失函数 / 训练策略

Lumina是无监督方法,无需训练。关键超参: - \(\lambda = 0.5\)(平衡外部和内部分数) - 余弦核(无需调整核参数)

实验关键数据

主实验

数据集:RAGTruth(QA+摘要+数据到文本)、HalluRAG(自由形式QA)。模型:Llama2-7B/13B、Llama3-8B、Mistral-7B。

方法类别 方法 RAGTruth AUROC (Llama2-13B) HalluRAG AUROC (Llama2-13B)
不确定性 Perplexity 0.454 0.255
不确定性 LN-Entropy 0.768 0.783
跨样本一致性 EigenScore 0.633 0.786
言语化 P(True) 0.754 0.691
利用度量 ReDeEP 0.806 0.765
利用度量 Lumina 0.857 0.917
LLM RAGTruth AUROC HalluRAG AUROC
Llama2-7B 0.765 0.915
Llama2-13B 0.857 0.917
Mistral-7B 0.769 0.990

Lumina在HalluRAG上跨模型均超过0.9 AUROC,比ReDeEP最高提升 +13%。

消融实验

  • 核函数选择:余弦核与最优RBF核性能相当,更无参数,更实用
  • 分数组合:外部+内部联合优于单独使用,Llama2-13B上联合比单独提升 >10%
  • 上下文噪声鲁棒性:移除/添加0-30%句子,大多数LLM性能稳定
  • 跨模型检测:Llama2-7B检测Llama3-8B生成的幻觉,AUROC与Llama3-8B自检持平或更高

关键发现

  • 幻觉与"低外部上下文分数 + 高内部知识分数"强相关(2D KDE可视化验证)
  • 同模型检测并非必须——跨模型检测同样有效甚至更好
  • 错误分析发现大部分假阳/假阴源于数据集标注质量和低质检索文档

亮点与洞察

  1. 层无关设计:不需要选择特定的attention head或layer,解决了先前方法最大的可移植性瓶颈
  2. 统计验证框架:首次对"内外知识利用分数"进行严格的假设检验验证
  3. 无监督但强过有监督:与训练二分类器的SAPLMA竞争性能,某些情况下超越
  4. 跨模型泛化:用小模型检测大模型的幻觉成为可能,大幅降低部署成本

局限性 / 可改进方向

  • 对Llama2-13B在上下文噪声下性能下降 >0.1,需进一步分析
  • 当前假设检索文档相关且充分,极端低质量检索场景未充分评估
  • 信息处理率的logit lens投影可能在较新的架构(如MoE模型)上需要调整
  • 未在推理密集型任务(如数学推理)上验证

相关工作与启发

  • MMD作为分布距离度量的应用非常优雅,可扩展到其他信号检测场景
  • 信息处理率提供了观察LLM内部状态的新视角,可能启发新的训练目标
  • 跨模型检测结果表明LLM的"知识利用模式"可能具有跨模型共性
  • 对RAG系统的可靠性保证具有直接实践意义

评分

  • 新颖性:⭐⭐⭐⭐⭐ — MMD+信息处理率的组合设计新颖且有理论基础
  • 技术深度:⭐⭐⭐⭐⭐ — 统计验证框架提升了方法的可信度
  • 实验充分度:⭐⭐⭐⭐⭐ — 多模型多数据集+丰富消融+鲁棒性分析
  • 实用价值:⭐⭐⭐⭐⭐ — 无监督、无需训练、跨模型泛化