跳转至

Efficient Semantic Uncertainty Quantification in Language Models via Diversity-Steered Sampling

会议: NeurIPS 2025
arXiv: 2510.21310
代码: 无
领域: NLP理解 / 不确定性估计
关键词: 语义不确定性, 多样性采样, 重要性加权, NLI, 语言模型

一句话总结

提出 diversity-steered sampling 框架:在解码时注入基于 NLI 的语义相似度惩罚来驱动生成语义多样化的样本,并用重要性加权+控制变量纠正偏差降低方差,在仅 16 个样本下即可准确估计 LLM 的语义熵(偶然不确定性)和互信息(认知不确定性)。

研究背景与动机

  1. 领域现状:LLM 在自由形式问答(QA)中的不确定性量化主要依靠语义熵(Semantic Entropy, SE)——将多次生成结果按语义聚类后计算聚类分布的熵。最近的工作还通过迭代提示计算互信息(MI)来度量认知不确定性。

  2. 现有痛点:这些方法都需要大量 IID 采样才能获得稳定估计,但标准采样产生的样本中大部分语义重复(同一答案的不同表述),浪费计算资源。温度调节、nucleus sampling 等多样性启发式不考虑语义,无法有效覆盖不同语义簇。

  3. 核心矛盾:估计需要覆盖尽可能多的语义簇以获得准确的聚类分布,但标准采样倾向于集中在高概率区域,少数样本难以覆盖稀有簇。增加样本数是简单方案但推理成本高。

  4. 本文要解决什么:如何在少量样本(如 16 个)下高效覆盖更多语义簇,从而准确估计 LLM 的偶然和认知不确定性。

  5. 切入角度:在解码过程中直接加入语义多样性惩罚——每生成一个 token 时,惩罚与已有生成语义相似的 token,从而推动后续生成探索新的语义方向。关键创新是将 NLI 模型微调后支持不完整序列的成对评估。

  6. 核心idea一句话:用 NLI 蕴含分数作为连续惩罚项注入解码 logits,使采样远离已有语义簇,并用重要性加权纠正引入的分布偏差。

方法详解

整体框架

框架分三步:(1) 多样性引导采样——修改 token 级条件分布,惩罚与已有生成语义相似的候选;(2) 重要性加权纠偏——因为采样分布 \(q \neq p\),用自归一化重要性权重 \(w_i = p(s_i)/q(s_i)\) 纠正聚类概率估计;(3) 控制变量降方差——利用模型对数概率与目标统计量的相关性构造控制变量,进一步降低估计方差。

关键设计

  1. 语义相似度惩罚的注入
  2. 做什么:在每个 token 的解码步骤中加入连续惩罚项
  3. 核心思路:对每个候选 token \(y_t\),计算当前部分序列 \(y_{\leq t}\) 与已有完整生成集 \(\mathcal{S}\) 中最相似样本的双向蕴含分数 \(E(y_{\leq t}, s) = \frac{1}{2}(\text{entailment}(y_{\leq t}, s) + \text{entailment}(s, y_{\leq t}))\),修改 logits 为 \(\log \tilde{q}(y_t | y_{<t}) = \log p(y_t | y_{<t}) - \lambda \max_{s \in \mathcal{S}} E(y_{\leq t}, s)\)
  4. 设计动机:使用 max 聚合确保新生成远离最相似的已有样本;双向蕴含比单向更准确地捕获语义等价性

  5. NLI 模型微调支持不完整序列

  6. 做什么:微调 NLI 模型使其能对部分生成的序列(前缀/带mask的序列)给出可靠的蕴含判断
  7. 核心思路:冻结预训练 DeBERTa-large-MNLI 的所有参数,仅训练一个新增的 [TRUNC] token 嵌入和分类头(仅 0.3% 参数 ~3M)。训练数据通过对 MNLI 样本随机截断一侧构造。对于 MDM,类似地微调 [MASK] token 嵌入
  8. 设计动机:标准 NLI 模型只能比较完整句子对;但多样性引导需要在生成过程中评估不完整的前缀。轻量微调保持原始 NLI 性能的同时获得前缀处理能力

  9. 重要性加权纠偏

  10. 做什么:纠正由多样性引导引入的采样偏差
  11. 核心思路:对于从 \(q\) 采样的样本,计算自归一化重要性权重 \(\tilde{w}_i = \frac{p(s_i)/q(s_i)}{\sum_j p(s_j)/q(s_j)}\),用于加权聚类概率估计 \(\hat{p}(c) \approx \sum_i \mathbf{1}[s_i \in c] \tilde{w}_i\)
  12. 设计动机:多样性引导使采样分布偏离模型真实分布,不纠正会导致有偏的不确定性估计

  13. 控制变量降方差

  14. 做什么:利用已有信息(模型对数概率)降低重要性加权估计的方差
  15. 核心思路:构造控制变量 \(X_i = -\log p(s_i)\)(模型对数概率),与目标变量 \(Y_i = -\log \hat{p}(c(s_i))\)(聚类对数概率)相关,用自适应系数 \(\alpha\) 最小化方差:\(\hat{H}_{cv} = \sum \tilde{w}_i Y_i - \alpha \sum \tilde{w}_i (X_i - \mu_X)\)
  16. 设计动机:\(X_i\) 在计算重要性权重时已经获得,零额外成本

  17. 对 Masked Diffusion Models (MDM) 的扩展

  18. 做什么:将相同的多样性引导框架应用于 MDM 的迭代去噪过程
  19. 核心思路:在每个去噪步骤中,对候选 infilling 计算其与已有轨迹的语义相似度并施加惩罚。NLI 模型微调改为处理含 [MASK] token 的序列
  20. 设计动机:MDM 是近年来兴起的强大生成范式,但在不确定性量化方面完全被忽视。本文首次将语义不确定性估计扩展到 MDM

损失函数 / 训练策略

NLI 微调使用标准交叉熵损失,仅更新 [TRUNC]/[MASK] 嵌入和分类头。基座 LLM 无需任何修改或梯度访问——框架是完全模块化的。

实验关键数据

主实验

在 4 个 QA 基准上用 N=16 个样本估计语义熵的 AUROC(正确性阈值 ROUGE-L < 0.3):

方法 CoQA (OPT-13B) TriviaQA (OPT-13B) TruthfulQA (OPT-13B) CoQA (LLaDA 8B)
Vanilla (τ=1) .81±.04 .76±.06 .67±.04 .85±.04
Temperature (τ=2) .82±.04 .80±.04 .67±.03 .89±.04
DBS .83±.04 .85±.04 .67±.03
SDLG .83±.03 .81±.04 .70±.04
Ours .85±.04 .85±.04 .71±.04 .94±.02

消融实验

配置 语义簇覆盖 AUROC ESS/N
完整方法(多样性+IS+CV) 最高 最佳 ~0.4-0.6
无控制变量 最高 略降 ~0.4-0.6
无重要性加权 最高 有偏下降 N/A
仅温度调节 中等 中等 1.0

关键发现

  • 语义簇覆盖显著提升:在 CoQA 上,本方法平均覆盖的语义簇数量是标准采样的 1.5-2 倍(图4),这直接转化为更准确的不确定性估计
  • 在模糊性高的数据集上优势最大:CoQA 和 AmbigQA(多答案问题)上提升最显著,因为这些场景的语义空间更广
  • 对 MDM 效果尤为突出:LLaDA 8B 上 AUROC 从 .85 提升到 .94(+9%),首次证明 MDM 也可以进行高质量的语义不确定性估计
  • ESS/N > 0.4:重要性权重的有效样本量比率始终较高,说明多样性引导没有过度偏离原始分布
  • NLI 微调对前缀的处理质量好:蕴含概率在序列仅展开 30-50% 时就已收敛到最终判断(图2),说明前缀已包含足够的语义信号

亮点与洞察

  • 生成与估计的对齐设计:用同一个 NLI 模型既引导多样性采样又定义下游的语义聚类,确保采样空间和估计空间一致。这种"度量驱动多样性"的思路远比无语义的温度调节更有原则性
  • 极轻量的 NLI 适配:仅微调 0.3% 参数(一个 token 嵌入 + 分类头)就使 NLI 模型能处理不完整序列,工程优雅且实用
  • 首次统一 ARM 和 MDM 的不确定性估计:通过分别处理 [TRUNC](截断标记)和 [MASK](掩码标记),同一框架适用于两种完全不同的生成范式
  • 控制变量的零成本降方差:利用已有的模型对数概率作为控制变量,不增加任何推理开销就降低估计方差

局限性 / 可改进方向

  • 顺序生成的计算开销:每个新样本需要与所有已有样本比较语义相似度,生成时间线性增长于样本数 N。批量并行策略是重要的未来方向
  • NLI 模型的局限:蕴含判断本身有噪声,尤其对于长文本和复杂推理。硬聚类(双向蕴含=同簇)可能遗漏渐变的语义差异
  • 单一惩罚强度 λ 的鲁棒性:虽然论文提出了自适应 λ 策略,但在不同问题类型间的泛化仍需验证
  • 依赖 NLI 模型与 LLM 的 tokenizer 兼容性:当两者 tokenizer 不同时,前缀处理需要额外的解码/重编码步骤

相关工作与启发

  • vs Semantic Entropy [Kuhn et al.]:SE 只是估计框架,不改变采样策略;本文通过多样性引导让 SE 在少样本下更准确
  • vs SDLG [Aichberger et al.]:SDLG 通过替换关键 token 实现多样性,但需要 NLI 梯度、不支持 MDM、不考虑运行中样本集的多样性。本文是无梯度的、统一 ARM/MDM 的
  • vs Conformal Prediction:置信区间方法提供理论保证但需要校准数据集,本文方法完全无需额外数据

评分

  • 新颖性: ⭐⭐⭐⭐ 多样性引导采样+重要性纠偏的组合是自然但执行精致的创新,NLI前缀微调是亮点
  • 实验充分度: ⭐⭐⭐⭐ 4个QA基准、4个模型(含MDM)、多种采样对比,但消融可更系统化
  • 写作质量: ⭐⭐⭐⭐⭐ 数学表述严谨,动机清晰,算法伪代码完整
  • 价值: ⭐⭐⭐⭐ 模块化无需梯度访问LLM,实用性强;首次覆盖MDM不确定性估计有开拓意义