Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training¶

会议/期刊: ACL 2025
arXiv: 2410.15460
代码: GitHub
领域: LLM安全 / 幻觉缓解
关键词: hallucination, dropout, training dynamics, EigenScore, sensitive embedding indices

一句话总结¶

提出Sensitivity Dropout (SenD)训练协议，通过识别并确定性丢弃训练过程中波动最大的嵌入索引（Sensitive Embedding Indices），减少LLM训练中幻觉的振荡行为，同时提出高效EigenScore近似方法(EES)实现2倍加速。

研究背景与动机¶

问题定义：LLM在训练过程中存在幻觉的振荡行为（oscillatory behavior），即模型在不同训练检查点时幻觉表现反复波动，难以通过训练损失收敛来判断最优停止点。
现有不足：已有幻觉研究主要聚焦于推理阶段的检测和缓解（如RLHF、RAG），忽视了训练过程本身对幻觉产生的影响。
关键观察：即使训练损失收敛，幻觉指标（SelfCheckGPT、HaluEval等）仍持续振荡；模型规模增大也无法有效解决振荡问题。
本文方案：从训练内部动态出发，识别导致幻觉的敏感嵌入索引(SEI)，通过确定性dropout在训练中减少幻觉方差。

方法详解¶

整体框架¶

SenD训练协议包含三个核心组件： 1. 敏感嵌入索引(SEI)检测：通过分析倒数第二层嵌入在检查点间的变化，识别波动最大的嵌入维度 2. 确定性Dropout：在后续训练中丢弃这些高波动维度，迫使模型通过稳定维度学习 3. 高效EigenScore(EES)：作为训练停止标准，利用Chebyshev多项式和随机迹估计加速EigenScore计算

关键设计¶

句子嵌入向量提取：将倒数第二层激活矩阵 \(\mathbb{R}^{n,m}\) 转换为嵌入向量 \(e_k = \frac{1}{2}((\frac{1}{m}\sum_{i=1}^{m}H_{N-1}^i) + H_{N-1}^m)\)
净变化公式：\(\Delta e_i^t = |e_i^t - e_i^{t-1}|\)，衡量相邻检查点间嵌入索引的变化量
SEI定义：选取最后C个检查点中变异性最高的top-K%嵌入索引，\(V_i = Var(e_i)\sum_{t=T-C+1}^{T}\Delta e_i^t\)
训练循环：每3个检查点重新计算SEI并丢弃top-20%，直到损失和EES同时收敛

损失函数/停止标准¶

标准语言模型损失 + EES停止标准
EES通过Chebyshev多项式和谱密度(DOS)近似EigenScore：\(\text{EES} = \frac{1}{K}\sum_{m=0}^{M}d_m c_m\)
时间复杂度从 \(O(N^3)\) 降低到 \(O(N^2)\)，在大矩阵上实现约2倍加速

实验¶

主实验结果¶

指标	SenD	Normal Training
FactScore	0.44	0.39
FactScore + RAG	0.50	0.40
HaluEval Accuracy	0.74	0.74
HaluEval Correctness	0.98	0.98
HaluEval Exact Match	0.75	0.75

Llama 3.1 8B在HELM数据集上的评估。

消融实验/下游任务影响¶

指标	数据集	SenD	Normal
HellaSwag	HELM	0.73	0.74
MMLU	HELM	0.67	0.65
Token Entropy	HELM	0.79	0.95
HellaSwag	CodeSearchNet	0.69	0.40
Token Entropy	CodeSearchNet	0.21	0.33

SenD不降低下游任务性能，同时降低token分布熵（提升置信度最高达17%）。

关键发现¶

幻觉振荡行为在70M到12B所有模型规模中持续存在，模型规模增大无法解决
SEI dropout相比随机dropout，可显著降低EigenScore（尤其对幻觉输出效果更明显）
SenD在Wikipedia、Medical、Legal、Coding四个领域均有效减少幻觉方差
SenD与RAG可叠加使用：SenD+RAG的FactScore（0.50）优于单独RAG（0.40）
额外训练开销仅约11%（61分钟vs 55分钟/epoch）

亮点¶

首个从训练动态角度解决LLM幻觉的方法，填补了推理阶段缓解和训练阶段优化之间的空白
提出的SEI概念直觉清晰：高波动的嵌入维度对应不确定性高的知识表示
EES作为EigenScore的高效近似，具有独立的实用价值
SenD是正交于RAG等推理时方法的互补方案，可叠加使用

局限性¶

仅验证了continual training场景，未在预训练阶段测试
受算力限制，最大模型为Llama 3.1 8B，缺乏更大规模模型的验证
SEI的K%阈值和检查点窗口C需要调参，不同数据集可能需要不同设置
EES与原始EigenScore的量纲不同（\([0,\infty)\) vs \([-1,1]\)），需注意解释

评分¶

维度	分数
新颖性	⭐⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐