跳转至

Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal Belief

一句话总结

提出EAGLE方法,通过聚合LLM多个中间层隐藏状态的logits并计算置信度分布的期望值来估计不确定性,无需训练额外参数,在多个数据集和模型上ECE从12.6%降至3.2%,AUROC从59.0%提升至61.6%。

研究背景与动机

  • 领域现状:LLM的不确定性估计对安全部署至关重要。现有方法主要两类:(1) 多次采样(语义熵/自一致性)成本高,(2) 自我评估(verbalized confidence)方法直接但仅依赖最终层输出的表面置信度分数。
  • 核心痛点:经过RLHF训练的LLM倾向于过度自信——最终层的softmax概率已被"校准"成讨好人类的高置信度,不再反映模型的真实不确定性。仅使用最终层输出的点估计丢失了丰富的内部信息。
  • 核心矛盾:模型的内部表示(各层隐藏状态)包含关于置信度的细粒度信号,但传统自我评估方法仅从最终层解码单个置信度分数——就像只看一本书的结论而忽略所有论证过程。
  • 切入角度:研究发现中间层隐藏状态可以自然地分离高置信度和低置信度的预测,利用这一特性从多层聚合更鲁棒的不确定性信号。

方法详解

整体框架

EAGLE(Expectation of AGgregated internaL bEief)流程:(1) LLM生成回答;(2) 提示LLM自评置信度;(3) 提取自评token对应的多层隐藏状态;(4) 将隐藏状态投影到词表空间并聚合logits;(5) 对聚合logits用softmax得到置信度分布;(6) 计算分布期望作为最终置信度分数。

关键设计

  1. 跨层隐藏状态提取与投影
  2. 提取最后k层中,自评token位置的隐藏状态H_n^(l)
  3. 用模型的unembedding矩阵将每层隐藏状态投影到词表空间:z_n^(l) = f_unembed(H_n^(l))
  4. 这样每层都对应一组logits,反映该层对应该位置各token的"偏好"

  5. Logits聚合

  6. 对k层的logits进行加权平均:z_n = sum(w_l * z_n^(l)) / k,默认等权
  7. 聚合消除了单层的噪声和过拟合,捕获更稳定的内部信念信号
  8. 不同层捕获不同级别的语言和语义信息,聚合相当于综合考虑模型各处理阶段的判断

  9. 期望而非argmax

  10. 对聚合logits中与置信度分数token(0-9)对应的logits做softmax得到概率分布
  11. 最终置信度 = 期望值 = sum(w_s * s),而非取argmax
  12. 期望值捕获了完整的不确定性分布信息——如果模型在"7"和"8"之间犹豫,期望值约7.5比单选"8"更真实

  13. 完全无需训练

  14. 不需要训练探针网络或额外参数
  15. 仅需一次前向传播(与标准自评相同),额外开销仅在于提取中间层隐藏状态并做矩阵乘法
  16. 适用于任何开源decoder-only Transformer

损失函数/训练策略

  • 完全training-free,无需任何微调或额外训练
  • 自评prompt设计探索:测试了不同的prompt变体,发现对性能有一定影响
  • 置信度分数范围:默认用0-9(10个离散值),消融实验测试了不同范围

实验关键数据

主实验表格(Llama3 8B,ECE越低/AUROC越高越好)

方法 TriviaQA ECE GSM8K ECE MMLU ECE 平均ECE 平均AUROC
Self-Eval (SE) 15.5 17.1 5.1 12.6 59.0
Self-Consistency 27.7 25.4 7.3 20.1 54.0
P(true) 23.3 25.1 37.9 28.8 60.5
CSL 28.7 6.3 39.2 24.7 56.9
EAGLE 1.7 7.6 0.4 3.2 61.6

消融实验表格(Qwen2.5 72B,ECE越低越好)

方法 TriviaQA ECE GSM8K ECE MMLU ECE 平均AUROC
Self-Eval 18.6 - - -
EAGLE 1.7 - - 改善显著

关键发现

  • ECE从12.6%降至3.2%(Llama3 8B平均),降幅达75%——校准质量大幅提升
  • MMLU上ECE仅0.4%——接近完美校准
  • 中间层(约60%-80%深度)对不确定性估计贡献最大:暗示模型在这些层完成关键的"决策"过程
  • 期望vs argmax:使用分布期望比直接取最高概率的分数更稳定、更准确
  • 跨模型一致性:在Llama3 8B/70B和Qwen2.5 7B/72B上均表现优异
  • 多次采样方法(Self-Consistency)反而校准更差:多次采样的一致性并不总能反映真实不确定性

亮点与洞察

  • "看内部而非看表面"的范式:从模型内部状态而非表面输出提取不确定性信号,绕过了RLHF带来的过度自信问题
  • Training-free的极大优势:无需标注数据和额外训练,即插即用,部署成本几乎为零
  • 中间层的"决策窗口"发现:60%-80%深度的层对不确定性信号贡献最大,这对理解LLM内部决策机制有启发

局限性 / 可改进方向

  • 需要访问模型内部隐藏状态,仅适用于开源模型——无法用于闭源API
  • 等权聚合可能不是最优策略,层权重的自适应学习可能进一步提升性能
  • 置信度分数的离散化(0-9)限制了精度,可探索连续化方案
  • 目前仅在QA和数学推理任务上验证,开放式生成任务的效果有待测试

相关工作与启发

  • vs. 语义熵(Kuhn et al. 2023):语义熵需要多次采样(成本高),EAGLE仅需一次前向传播;且语义熵在某些场景上校准反而更差
  • vs. 传统自评(Verbalized Confidence):传统方法仅用最终层输出,受RLHF过度自信影响;EAGLE从多层聚合绕过了这一问题

评分

维度 评分 理由
新颖性 ⭐⭐⭐⭐ 从多层内部状态聚合做不确定性估计是新颖且直觉清晰的视角
技术深度 ⭐⭐⭐⭐ 跨层聚合+期望计算的设计简洁有效,层分析深入
实验完整度 ⭐⭐⭐⭐ 4种模型x3数据集x5种基线,层分析和prompt分析充分
实用价值 ⭐⭐⭐⭐⭐ Training-free、即插即用,对LLM安全部署有直接价值