Enhancing Hallucination Detection through Noise Injection¶

会议: ICLR 2026
arXiv: 2502.03799
代码: 未公开
领域: LLM NLP / AI安全 / 不确定性估计
关键词: 幻觉检测, 噪声注入, 认知不确定性, 贝叶斯近似, 中间表征

一句话总结¶

在 LLM 中间层的 MLP 激活中注入均匀噪声来近似贝叶斯后验，捕获认知不确定性（epistemic uncertainty），与采样温度捕获的偶然不确定性（aleatoric uncertainty）互补，将 GSM8K 上的幻觉检测 AUROC 从 71.56 提升到 76.14。

领域现状：幻觉检测的主流方法通过语义熵（Semantic Entropy）或多次采样一致性来估计 LLM 的不确定性，但这些方法主要捕获偶然不确定性（数据内在的不确定性）。
现有痛点：认知不确定性（模型对其知识的不确定性）在当前方法中被忽略。标准采样只改变 token 分布的随机性，不改变模型本身，因此无法捕获"模型不确定自己知道什么"的信号。
核心矛盾：完整的贝叶斯推理需要对模型权重的后验分布进行采样，但这在大模型中计算上不可行（MC-Dropout 等近似方法又不够有效）。
本文要解决什么？ 如何在不重新训练的前提下，高效捕获大语言模型的认知不确定性？
切入角度：在分布中间表征时注入小幅度噪声，作为权重后验的代理分布。
核心idea一句话：在 MLP 激活值上加均匀噪声，等效于对权重做小扰动，多次采样后的输出差异反映认知不确定性。

对给定输入，保持 T=0.5 的采样温度（捕获偶然不确定性），同时在顶部 1/3 层的 MLP 激活上注入 U(0, alpha) 噪声（捕获认知不确定性），生成 K 个候选回答，计算回答熵作为不确定性分数。

代理后验分布:
做什么：用参数化噪声近似贝叶斯权重后验
核心思路：定义代理分布 q(omega)，非目标层权重固定为预训练值（delta 分布），目标层权重在预训练值附近加有界扰动。所有选中层使用相同的噪声向量，避免残差连接中的抵消效应。
设计动机：噪声幅度 alpha 控制后验的"宽度"——alpha 过大破坏生成质量，alpha 过小无法捕获不确定性。最优 alpha 在 0.01-0.11 之间。
噪声注入位置:
做什么：仅在 MLP 激活层（顶部 1/3 层）注入噪声
核心思路：实验对比了注意力层 vs MLP 层，MLP 效果显著更好（76.14 vs 71.89 AUROC）。
设计动机：MLP 层编码了更多的事实性知识，扰动 MLP 更有效地探测模型对特定知识的确定程度。
检测流水线:
对每个输入生成 K 个采样回答
计算回答熵：H_ans = -sum(p(a_j) * log(p(a_j)))
高熵 = 高不确定性 = 可能是幻觉

数据集	模型	基线 AUROC	+噪声 AUROC	提升
GSM8K	Llama-2-7B	71.56	76.14	+4.58
GSM8K	Llama-2-13B	77.20	79.25	+2.05
TriviaQA	Mistral-7B	75.86	77.76	+1.90
CSQA	Gemma-2B	58.97	61.71	+2.74