Efficient Semantic Uncertainty Quantification in Language Models via Diversity-Steered Sampling¶
会议: NeurIPS 2025
arXiv: 2510.21310
代码: 无
领域: NLP理解 / 不确定性估计
关键词: 语义不确定性, 多样性采样, 重要性加权, NLI, 语言模型
一句话总结¶
提出 diversity-steered sampling 框架:在解码时注入基于 NLI 的语义相似度惩罚来驱动生成语义多样化的样本,并用重要性加权+控制变量纠正偏差降低方差,在仅 16 个样本下即可准确估计 LLM 的语义熵(偶然不确定性)和互信息(认知不确定性)。
研究背景与动机¶
-
领域现状:LLM 在自由形式问答(QA)中的不确定性量化主要依靠语义熵(Semantic Entropy, SE)——将多次生成结果按语义聚类后计算聚类分布的熵。最近的工作还通过迭代提示计算互信息(MI)来度量认知不确定性。
-
现有痛点:这些方法都需要大量 IID 采样才能获得稳定估计,但标准采样产生的样本中大部分语义重复(同一答案的不同表述),浪费计算资源。温度调节、nucleus sampling 等多样性启发式不考虑语义,无法有效覆盖不同语义簇。
-
核心矛盾:估计需要覆盖尽可能多的语义簇以获得准确的聚类分布,但标准采样倾向于集中在高概率区域,少数样本难以覆盖稀有簇。增加样本数是简单方案但推理成本高。
-
本文要解决什么:如何在少量样本(如 16 个)下高效覆盖更多语义簇,从而准确估计 LLM 的偶然和认知不确定性。
-
切入角度:在解码过程中直接加入语义多样性惩罚——每生成一个 token 时,惩罚与已有生成语义相似的 token,从而推动后续生成探索新的语义方向。关键创新是将 NLI 模型微调后支持不完整序列的成对评估。
-
核心idea一句话:用 NLI 蕴含分数作为连续惩罚项注入解码 logits,使采样远离已有语义簇,并用重要性加权纠正引入的分布偏差。
方法详解¶
整体框架¶
框架分三步:(1) 多样性引导采样——修改 token 级条件分布,惩罚与已有生成语义相似的候选;(2) 重要性加权纠偏——因为采样分布 \(q \neq p\),用自归一化重要性权重 \(w_i = p(s_i)/q(s_i)\) 纠正聚类概率估计;(3) 控制变量降方差——利用模型对数概率与目标统计量的相关性构造控制变量,进一步降低估计方差。
关键设计¶
- 语义相似度惩罚的注入:
- 做什么:在每个 token 的解码步骤中加入连续惩罚项
- 核心思路:对每个候选 token \(y_t\),计算当前部分序列 \(y_{\leq t}\) 与已有完整生成集 \(\mathcal{S}\) 中最相似样本的双向蕴含分数 \(E(y_{\leq t}, s) = \frac{1}{2}(\text{entailment}(y_{\leq t}, s) + \text{entailment}(s, y_{\leq t}))\),修改 logits 为 \(\log \tilde{q}(y_t | y_{<t}) = \log p(y_t | y_{<t}) - \lambda \max_{s \in \mathcal{S}} E(y_{\leq t}, s)\)
-
设计动机:使用 max 聚合确保新生成远离最相似的已有样本;双向蕴含比单向更准确地捕获语义等价性
-
NLI 模型微调支持不完整序列:
- 做什么:微调 NLI 模型使其能对部分生成的序列(前缀/带mask的序列)给出可靠的蕴含判断
- 核心思路:冻结预训练 DeBERTa-large-MNLI 的所有参数,仅训练一个新增的 [TRUNC] token 嵌入和分类头(仅 0.3% 参数 ~3M)。训练数据通过对 MNLI 样本随机截断一侧构造。对于 MDM,类似地微调 [MASK] token 嵌入
-
设计动机:标准 NLI 模型只能比较完整句子对;但多样性引导需要在生成过程中评估不完整的前缀。轻量微调保持原始 NLI 性能的同时获得前缀处理能力
-
重要性加权纠偏:
- 做什么:纠正由多样性引导引入的采样偏差
- 核心思路:对于从 \(q\) 采样的样本,计算自归一化重要性权重 \(\tilde{w}_i = \frac{p(s_i)/q(s_i)}{\sum_j p(s_j)/q(s_j)}\),用于加权聚类概率估计 \(\hat{p}(c) \approx \sum_i \mathbf{1}[s_i \in c] \tilde{w}_i\)
-
设计动机:多样性引导使采样分布偏离模型真实分布,不纠正会导致有偏的不确定性估计
-
控制变量降方差:
- 做什么:利用已有信息(模型对数概率)降低重要性加权估计的方差
- 核心思路:构造控制变量 \(X_i = -\log p(s_i)\)(模型对数概率),与目标变量 \(Y_i = -\log \hat{p}(c(s_i))\)(聚类对数概率)相关,用自适应系数 \(\alpha\) 最小化方差:\(\hat{H}_{cv} = \sum \tilde{w}_i Y_i - \alpha \sum \tilde{w}_i (X_i - \mu_X)\)
-
设计动机:\(X_i\) 在计算重要性权重时已经获得,零额外成本
-
对 Masked Diffusion Models (MDM) 的扩展:
- 做什么:将相同的多样性引导框架应用于 MDM 的迭代去噪过程
- 核心思路:在每个去噪步骤中,对候选 infilling 计算其与已有轨迹的语义相似度并施加惩罚。NLI 模型微调改为处理含 [MASK] token 的序列
- 设计动机:MDM 是近年来兴起的强大生成范式,但在不确定性量化方面完全被忽视。本文首次将语义不确定性估计扩展到 MDM
损失函数 / 训练策略¶
NLI 微调使用标准交叉熵损失,仅更新 [TRUNC]/[MASK] 嵌入和分类头。基座 LLM 无需任何修改或梯度访问——框架是完全模块化的。
实验关键数据¶
主实验¶
在 4 个 QA 基准上用 N=16 个样本估计语义熵的 AUROC(正确性阈值 ROUGE-L < 0.3):
| 方法 | CoQA (OPT-13B) | TriviaQA (OPT-13B) | TruthfulQA (OPT-13B) | CoQA (LLaDA 8B) |
|---|---|---|---|---|
| Vanilla (τ=1) | .81±.04 | .76±.06 | .67±.04 | .85±.04 |
| Temperature (τ=2) | .82±.04 | .80±.04 | .67±.03 | .89±.04 |
| DBS | .83±.04 | .85±.04 | .67±.03 | — |
| SDLG | .83±.03 | .81±.04 | .70±.04 | — |
| Ours | .85±.04 | .85±.04 | .71±.04 | .94±.02 |
消融实验¶
| 配置 | 语义簇覆盖 | AUROC | ESS/N |
|---|---|---|---|
| 完整方法(多样性+IS+CV) | 最高 | 最佳 | ~0.4-0.6 |
| 无控制变量 | 最高 | 略降 | ~0.4-0.6 |
| 无重要性加权 | 最高 | 有偏下降 | N/A |
| 仅温度调节 | 中等 | 中等 | 1.0 |
关键发现¶
- 语义簇覆盖显著提升:在 CoQA 上,本方法平均覆盖的语义簇数量是标准采样的 1.5-2 倍(图4),这直接转化为更准确的不确定性估计
- 在模糊性高的数据集上优势最大:CoQA 和 AmbigQA(多答案问题)上提升最显著,因为这些场景的语义空间更广
- 对 MDM 效果尤为突出:LLaDA 8B 上 AUROC 从 .85 提升到 .94(+9%),首次证明 MDM 也可以进行高质量的语义不确定性估计
- ESS/N > 0.4:重要性权重的有效样本量比率始终较高,说明多样性引导没有过度偏离原始分布
- NLI 微调对前缀的处理质量好:蕴含概率在序列仅展开 30-50% 时就已收敛到最终判断(图2),说明前缀已包含足够的语义信号
亮点与洞察¶
- 生成与估计的对齐设计:用同一个 NLI 模型既引导多样性采样又定义下游的语义聚类,确保采样空间和估计空间一致。这种"度量驱动多样性"的思路远比无语义的温度调节更有原则性
- 极轻量的 NLI 适配:仅微调 0.3% 参数(一个 token 嵌入 + 分类头)就使 NLI 模型能处理不完整序列,工程优雅且实用
- 首次统一 ARM 和 MDM 的不确定性估计:通过分别处理 [TRUNC](截断标记)和 [MASK](掩码标记),同一框架适用于两种完全不同的生成范式
- 控制变量的零成本降方差:利用已有的模型对数概率作为控制变量,不增加任何推理开销就降低估计方差
局限性 / 可改进方向¶
- 顺序生成的计算开销:每个新样本需要与所有已有样本比较语义相似度,生成时间线性增长于样本数 N。批量并行策略是重要的未来方向
- NLI 模型的局限:蕴含判断本身有噪声,尤其对于长文本和复杂推理。硬聚类(双向蕴含=同簇)可能遗漏渐变的语义差异
- 单一惩罚强度 λ 的鲁棒性:虽然论文提出了自适应 λ 策略,但在不同问题类型间的泛化仍需验证
- 依赖 NLI 模型与 LLM 的 tokenizer 兼容性:当两者 tokenizer 不同时,前缀处理需要额外的解码/重编码步骤
相关工作与启发¶
- vs Semantic Entropy [Kuhn et al.]:SE 只是估计框架,不改变采样策略;本文通过多样性引导让 SE 在少样本下更准确
- vs SDLG [Aichberger et al.]:SDLG 通过替换关键 token 实现多样性,但需要 NLI 梯度、不支持 MDM、不考虑运行中样本集的多样性。本文是无梯度的、统一 ARM/MDM 的
- vs Conformal Prediction:置信区间方法提供理论保证但需要校准数据集,本文方法完全无需额外数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 多样性引导采样+重要性纠偏的组合是自然但执行精致的创新,NLI前缀微调是亮点
- 实验充分度: ⭐⭐⭐⭐ 4个QA基准、4个模型(含MDM)、多种采样对比,但消融可更系统化
- 写作质量: ⭐⭐⭐⭐⭐ 数学表述严谨,动机清晰,算法伪代码完整
- 价值: ⭐⭐⭐⭐ 模块化无需梯度访问LLM,实用性强;首次覆盖MDM不确定性估计有开拓意义