跳转至

Learning Uncertainty from Sequential Internal Dispersion in Large Language Models

会议: ACL 2026
arXiv: 2604.15741
代码: GitHub
领域: 不确定性估计 / 幻觉检测
关键词: 不确定性估计, 幻觉检测, 隐藏状态方差, 序列聚合, 内部表征分散度

一句话总结

提出 SIVR 框架,通过计算 LLM 隐藏状态跨层的内部方差(广义方差、圆方差、token 熵)作为 token 级特征,用轻量 Transformer 编码器聚合全序列模式来估计不确定性/检测幻觉,显著优于基线且泛化更强。

研究背景与动机

领域现状:不确定性估计是检测 LLM 幻觉的重要手段。现有方法包括采样一致性(如 Semantic Entropy)、输出概率方法(如 Entropy)、以及内部状态探针方法。

现有痛点:(1) 采样方法计算开销大;(2) CoE 等方法对层间演化假设过严,跨模型/任务不成立;(3) 仅用最后/平均 token 会丢失时序模式。

核心矛盾:CoE 压缩为单一分数,忽略了不同 token 位置的方差模式。如 "Praia is in Portugal" 中 "Portugal" 处的方差尖峰能标记错误,但均值汇总会掩盖。

本文目标:设计基于更宽松假设的内部状态特征,并保留完整序列信息。

切入角度:不确定性反映在隐藏状态跨层的"分散程度"上——正确时表征更集中,错误时更分散。

核心 idea:用三个分散度统计量(广义方差、圆方差、token 熵)描述每个 token 的跨层分散度,用 Transformer 编码器学习全序列模式来预测幻觉。

方法详解

整体框架

对每个生成 token 提取所有层隐藏状态,计算三个内部方差特征 \(\bm{v}_t = [v_t, c_t, e_t]\),形成序列输入轻量 Transformer 编码器进行二分类。

关键设计

  1. 广义方差(Generalised Variance):

    • 功能:衡量跨层"体积"分散度
    • 核心思路:计算正则化协方差矩阵的对数行列式 \(v_t = \log\det(\Sigma') = \sum_i \log \lambda_i\),聚合整个特征谱
    • 设计动机:不像 CoE 只看相邻层差异,广义方差与微分熵直接相关,提供更全面的分散度度量
  2. 圆方差(Circular Variance):

    • 功能:衡量跨层"方向"分散度
    • 核心思路:归一化各层隐藏状态后计算均值向量模长,\(c_t = 1 - \|\frac{1}{L+1}\sum_l \hat{\bm{h}}_t^l\|\)
    • 设计动机:与广义方差互补——前者捕捉幅度,后者捕捉方向。隐含所有层间成对关系
  3. 序列聚合 Transformer 分类器:

    • 功能:从完整序列分散度模式中学习幻觉检测
    • 核心思路:嵌入层(128维) + 单层 Transformer 编码器 + 线性分类头,训练目标为带 \(l_2\) 正则的二分类交叉熵
    • 设计动机:保留序列顺序捕捉"方差尖峰"等时序模式,比均值/末 token 聚合更有效

损失函数 / 训练策略

二分类交叉熵 + \(l_2\) 正则,仅需几百到几千标注样本。

实验关键数据

主实验

Llama-3.1-8B 上 7 个数据集 AUC 对比:

方法 TriviaQA SciQ MedMCQA MATH 平均 AUC 排名
Entropy 80.46 72.85 62.76 62.77 67.63 7.96
SE 84.44 79.44 66.88 67.27 68.87 7.13
CoE-C 66.97 75.06 62.14 58.67 61.25 11.08
SIVR 90.75 83.64 68.37 71.22 75.35 1.88

消融实验

配置 平均 AUC 说明
仅 Token 熵 71.2 基本有效但不足
仅广义方差 72.8 互补信号
三者组合(SIVR) 75.35 最佳
均值聚合替代序列 72.5 损失时序模式

关键发现

  • SIVR 平均排名 1.88 远优于第二名,三个特征互补性强
  • 序列聚合比均值/末 token 聚合提升 2-3 AUC,证明时序模式的价值
  • OOD 泛化性显著优于 CoE,仅需少量训练数据

亮点与洞察

  • "分散度"假设比"步长"假设更鲁棒——CoE 假设在不同模型间不一致,SIVR 的假设更基本通用
  • 保留序列结构的范式可迁移——任何需要从 token 级信号推断序列级属性的任务都可借鉴
  • 轻量但有效——3 个统计量 + 单层 Transformer,推理开销几乎可忽略

局限与展望

  • 需要标注数据,虽然量不大但新领域需额外标注
  • 仅验证贪婪解码,采样解码下表现待评估
  • 大规模模型(70B+)上验证不足
  • 未探索将 SIVR 用于主动幻觉缓解

相关工作与启发

  • vs CoE: CoE 假设过强跨任务失效,SIVR 假设更宽松
  • vs Semantic Entropy: SE 需多次采样计算昂贵,SIVR 仅需单次前向传播
  • vs Lookback Lens: 侧重特定层/注意力模式,SIVR 提供更全局视角

评分

  • 新颖性: ⭐⭐⭐⭐ 内部方差特征思路清晰,各组件较简单但组合有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 7 数据集多模型全面消融
  • 写作质量: ⭐⭐⭐⭐ 动机论证清晰,可视化有效
  • 价值: ⭐⭐⭐⭐⭐ 实用性强,对幻觉检测有直接实践价值

相关论文