Enhancing Hallucination Detection through Noise Injection¶
会议: ICLR 2026
arXiv: 2502.03799
代码: 未公开
领域: LLM NLP / AI安全 / 不确定性估计
关键词: 幻觉检测, 噪声注入, 认知不确定性, 贝叶斯近似, 中间表征
一句话总结¶
在 LLM 中间层的 MLP 激活中注入均匀噪声来近似贝叶斯后验,捕获认知不确定性(epistemic uncertainty),与采样温度捕获的偶然不确定性(aleatoric uncertainty)互补,将 GSM8K 上的幻觉检测 AUROC 从 71.56 提升到 76.14。
研究背景与动机¶
- 领域现状:幻觉检测的主流方法通过语义熵(Semantic Entropy)或多次采样一致性来估计 LLM 的不确定性,但这些方法主要捕获偶然不确定性(数据内在的不确定性)。
- 现有痛点:认知不确定性(模型对其知识的不确定性)在当前方法中被忽略。标准采样只改变 token 分布的随机性,不改变模型本身,因此无法捕获"模型不确定自己知道什么"的信号。
- 核心矛盾:完整的贝叶斯推理需要对模型权重的后验分布进行采样,但这在大模型中计算上不可行(MC-Dropout 等近似方法又不够有效)。
- 本文要解决什么? 如何在不重新训练的前提下,高效捕获大语言模型的认知不确定性?
- 切入角度:在分布中间表征时注入小幅度噪声,作为权重后验的代理分布。
- 核心idea一句话:在 MLP 激活值上加均匀噪声,等效于对权重做小扰动,多次采样后的输出差异反映认知不确定性。
方法详解¶
整体框架¶
对给定输入,保持 T=0.5 的采样温度(捕获偶然不确定性),同时在顶部 1/3 层的 MLP 激活上注入 U(0, alpha) 噪声(捕获认知不确定性),生成 K 个候选回答,计算回答熵作为不确定性分数。
关键设计¶
- 代理后验分布:
- 做什么:用参数化噪声近似贝叶斯权重后验
- 核心思路:定义代理分布 q(omega),非目标层权重固定为预训练值(delta 分布),目标层权重在预训练值附近加有界扰动。所有选中层使用相同的噪声向量,避免残差连接中的抵消效应。
-
设计动机:噪声幅度 alpha 控制后验的"宽度"——alpha 过大破坏生成质量,alpha 过小无法捕获不确定性。最优 alpha 在 0.01-0.11 之间。
-
噪声注入位置:
- 做什么:仅在 MLP 激活层(顶部 1/3 层)注入噪声
- 核心思路:实验对比了注意力层 vs MLP 层,MLP 效果显著更好(76.14 vs 71.89 AUROC)。
-
设计动机:MLP 层编码了更多的事实性知识,扰动 MLP 更有效地探测模型对特定知识的确定程度。
-
检测流水线:
- 对每个输入生成 K 个采样回答
- 计算回答熵:H_ans = -sum(p(a_j) * log(p(a_j)))
- 高熵 = 高不确定性 = 可能是幻觉
实验关键数据¶
主实验¶
| 数据集 | 模型 | 基线 AUROC | +噪声 AUROC | 提升 |
|---|---|---|---|---|
| GSM8K | Llama-2-7B | 71.56 | 76.14 | +4.58 |
| GSM8K | Llama-2-13B | 77.20 | 79.25 | +2.05 |
| TriviaQA | Mistral-7B | 75.86 | 77.76 | +1.90 |
| CSQA | Gemma-2B | 58.97 | 61.71 | +2.74 |
消融实验¶
| 设置 | AUROC (GSM8K) |
|---|---|
| 仅偶然 (T=0.5, 无噪声) | 71.56 |
| 仅认知 (T=0, 有噪声) | 74.35 |
| 两者组合 | 76.14 |
| 噪声在注意力层 | 71.89 |
关键发现¶
- 认知不确定性与偶然不确定性互补,组合优于任一单独使用
- MLP 层比注意力层更适合注入噪声(76.14 vs 71.89)
- 所有不确定性度量(预测熵、语义熵、词汇相似度、EigenScore)都因噪声注入而提升
- 模型越大(13B vs 7B),基线越强但噪声注入的绝对提升越小
亮点与洞察¶
- 简洁且通用:噪声注入无需重新训练、无需额外参数,可即插即用到任何 LLM。
- 贝叶斯视角的实用化:将理论上优美但实践中难行的贝叶斯推理,简化为"加噪声"这一极简操作,同时保持了理论动机。
- MLP vs 注意力的发现:MLP 层对知识编码更敏感的实验证据,支持了"MLP=知识存储"的假设。
局限性 / 可改进方向¶
- 最优噪声幅度 alpha 是数据集相关的超参数,需要在验证集上调优
- 需要多次前向推理(K 次采样),推理成本线性增加
- 在 CSQA 上提升较小(+0.97),可能与任务类型有关
- 噪声注入的理论保证(与真实贝叶斯后验的距离)未建立
相关工作与启发¶
- vs Semantic Entropy: 语义熵只捕获偶然不确定性,加噪声后可同时捕获认知不确定性
- vs MC-Dropout: Dropout 是另一种近似贝叶斯的方法,但在大模型中不常用且效果有限
评分¶
- 新颖性: ⭐⭐⭐⭐ 噪声注入用于幻觉检测的想法新颖,但技术贡献相对简单
- 实验充分度: ⭐⭐⭐⭐ 多模型多数据集,与多种不确定性度量结合
- 写作质量: ⭐⭐⭐⭐ 贝叶斯框架的阐述清晰
- 价值: ⭐⭐⭐⭐ 即插即用的幻觉检测增强方法