Learning Uncertainty from Sequential Internal Dispersion in Large Language Models¶

会议: ACL 2026
arXiv: 2604.15741
代码: GitHub
领域: 不确定性估计 / 幻觉检测
关键词: 不确定性估计, 幻觉检测, 隐藏状态方差, 序列聚合, 内部表征分散度

一句话总结¶

提出 SIVR 框架，通过计算 LLM 隐藏状态跨层的内部方差（广义方差、圆方差、token 熵）作为 token 级特征，用轻量 Transformer 编码器聚合全序列模式来估计不确定性/检测幻觉，显著优于基线且泛化更强。

领域现状：不确定性估计是检测 LLM 幻觉的重要手段。现有方法包括采样一致性（如 Semantic Entropy）、输出概率方法（如 Entropy）、以及内部状态探针方法。

现有痛点：(1) 采样方法计算开销大；(2) CoE 等方法对层间演化假设过严，跨模型/任务不成立；(3) 仅用最后/平均 token 会丢失时序模式。

核心矛盾：CoE 压缩为单一分数，忽略了不同 token 位置的方差模式。如 "Praia is in Portugal" 中 "Portugal" 处的方差尖峰能标记错误，但均值汇总会掩盖。

本文目标：设计基于更宽松假设的内部状态特征，并保留完整序列信息。

切入角度：不确定性反映在隐藏状态跨层的"分散程度"上——正确时表征更集中，错误时更分散。

核心 idea：用三个分散度统计量（广义方差、圆方差、token 熵）描述每个 token 的跨层分散度，用 Transformer 编码器学习全序列模式来预测幻觉。

对每个生成 token 提取所有层隐藏状态，计算三个内部方差特征 \(\bm{v}_t = [v_t, c_t, e_t]\)，形成序列输入轻量 Transformer 编码器进行二分类。

广义方差（Generalised Variance）:
- 功能：衡量跨层"体积"分散度
- 核心思路：计算正则化协方差矩阵的对数行列式 \(v_t = \log\det(\Sigma') = \sum_i \log \lambda_i\)，聚合整个特征谱
- 设计动机：不像 CoE 只看相邻层差异，广义方差与微分熵直接相关，提供更全面的分散度度量
圆方差（Circular Variance）:
- 功能：衡量跨层"方向"分散度
- 核心思路：归一化各层隐藏状态后计算均值向量模长，\(c_t = 1 - \|\frac{1}{L+1}\sum_l \hat{\bm{h}}_t^l\|\)
- 设计动机：与广义方差互补——前者捕捉幅度，后者捕捉方向。隐含所有层间成对关系
序列聚合 Transformer 分类器:
- 功能：从完整序列分散度模式中学习幻觉检测
- 核心思路：嵌入层(128维) + 单层 Transformer 编码器 + 线性分类头，训练目标为带 \(l_2\) 正则的二分类交叉熵
- 设计动机：保留序列顺序捕捉"方差尖峰"等时序模式，比均值/末 token 聚合更有效

二分类交叉熵 + \(l_2\) 正则，仅需几百到几千标注样本。

Llama-3.1-8B 上 7 个数据集 AUC 对比：

方法	TriviaQA	SciQ	MedMCQA	MATH	平均 AUC	排名
Entropy	80.46	72.85	62.76	62.77	67.63	7.96
SE	84.44	79.44	66.88	67.27	68.87	7.13
CoE-C	66.97	75.06	62.14	58.67	61.25	11.08
SIVR	90.75	83.64	68.37	71.22	75.35	1.88