Efficient Semantic Uncertainty Quantification in Language Models via Diversity-Steered Sampling¶

会议: NeurIPS 2025
arXiv: 2510.21310
代码: 无
领域: NLP理解 / 不确定性估计
关键词: 语义不确定性, 多样性采样, 重要性加权, NLI, 语言模型

一句话总结¶

提出 diversity-steered sampling 框架：在解码时注入基于 NLI 的语义相似度惩罚来驱动生成语义多样化的样本，并用重要性加权+控制变量纠正偏差降低方差，在仅 16 个样本下即可准确估计 LLM 的语义熵（偶然不确定性）和互信息（认知不确定性）。

研究背景与动机¶

领域现状：LLM 在自由形式问答（QA）中的不确定性量化主要依靠语义熵（Semantic Entropy, SE）——将多次生成结果按语义聚类后计算聚类分布的熵。最近的工作还通过迭代提示计算互信息（MI）来度量认知不确定性。
现有痛点：这些方法都需要大量 IID 采样才能获得稳定估计，但标准采样产生的样本中大部分语义重复（同一答案的不同表述），浪费计算资源。温度调节、nucleus sampling 等多样性启发式不考虑语义，无法有效覆盖不同语义簇。
核心矛盾：估计需要覆盖尽可能多的语义簇以获得准确的聚类分布，但标准采样倾向于集中在高概率区域，少数样本难以覆盖稀有簇。增加样本数是简单方案但推理成本高。
本文要解决什么：如何在少量样本（如 16 个）下高效覆盖更多语义簇，从而准确估计 LLM 的偶然和认知不确定性。
切入角度：在解码过程中直接加入语义多样性惩罚——每生成一个 token 时，惩罚与已有生成语义相似的 token，从而推动后续生成探索新的语义方向。关键创新是将 NLI 模型微调后支持不完整序列的成对评估。
核心idea一句话：用 NLI 蕴含分数作为连续惩罚项注入解码 logits，使采样远离已有语义簇，并用重要性加权纠正引入的分布偏差。

方法详解¶

整体框架¶

框架分三步：(1) 多样性引导采样——修改 token 级条件分布，惩罚与已有生成语义相似的候选；(2) 重要性加权纠偏——因为采样分布 \(q \neq p\)，用自归一化重要性权重 \(w_i = p(s_i)/q(s_i)\) 纠正聚类概率估计；(3) 控制变量降方差——利用模型对数概率与目标统计量的相关性构造控制变量，进一步降低估计方差。

关键设计¶

语义相似度惩罚的注入：
做什么：在每个 token 的解码步骤中加入连续惩罚项
核心思路：对每个候选 token \(y_t\)，计算当前部分序列 \(y_{\leq t}\) 与已有完整生成集 \(\mathcal{S}\) 中最相似样本的双向蕴含分数 \(E(y_{\leq t}, s) = \frac{1}{2}(\text{entailment}(y_{\leq t}, s) + \text{entailment}(s, y_{\leq t}))\)，修改 logits 为 \(\log \tilde{q}(y_t | y_{<t}) = \log p(y_t | y_{<t}) - \lambda \max_{s \in \mathcal{S}} E(y_{\leq t}, s)\)
设计动机：使用 max 聚合确保新生成远离最相似的已有样本；双向蕴含比单向更准确地捕获语义等价性
NLI 模型微调支持不完整序列：
做什么：微调 NLI 模型使其能对部分生成的序列（前缀/带mask的序列）给出可靠的蕴含判断
核心思路：冻结预训练 DeBERTa-large-MNLI 的所有参数，仅训练一个新增的 [TRUNC] token 嵌入和分类头（仅 0.3% 参数 ~3M）。训练数据通过对 MNLI 样本随机截断一侧构造。对于 MDM，类似地微调 [MASK] token 嵌入
设计动机：标准 NLI 模型只能比较完整句子对；但多样性引导需要在生成过程中评估不完整的前缀。轻量微调保持原始 NLI 性能的同时获得前缀处理能力
重要性加权纠偏：
做什么：纠正由多样性引导引入的采样偏差
核心思路：对于从 \(q\) 采样的样本，计算自归一化重要性权重 \(\tilde{w}_i = \frac{p(s_i)/q(s_i)}{\sum_j p(s_j)/q(s_j)}\)，用于加权聚类概率估计 \(\hat{p}(c) \approx \sum_i \mathbf{1}[s_i \in c] \tilde{w}_i\)
设计动机：多样性引导使采样分布偏离模型真实分布，不纠正会导致有偏的不确定性估计
控制变量降方差：
做什么：利用已有信息（模型对数概率）降低重要性加权估计的方差
核心思路：构造控制变量 \(X_i = -\log p(s_i)\)（模型对数概率），与目标变量 \(Y_i = -\log \hat{p}(c(s_i))\)（聚类对数概率）相关，用自适应系数 \(\alpha\) 最小化方差：\(\hat{H}_{cv} = \sum \tilde{w}_i Y_i - \alpha \sum \tilde{w}_i (X_i - \mu_X)\)
设计动机：\(X_i\) 在计算重要性权重时已经获得，零额外成本
对 Masked Diffusion Models (MDM) 的扩展：
做什么：将相同的多样性引导框架应用于 MDM 的迭代去噪过程
核心思路：在每个去噪步骤中，对候选 infilling 计算其与已有轨迹的语义相似度并施加惩罚。NLI 模型微调改为处理含 [MASK] token 的序列
设计动机：MDM 是近年来兴起的强大生成范式，但在不确定性量化方面完全被忽视。本文首次将语义不确定性估计扩展到 MDM

损失函数 / 训练策略¶

NLI 微调使用标准交叉熵损失，仅更新 [TRUNC]/[MASK] 嵌入和分类头。基座 LLM 无需任何修改或梯度访问——框架是完全模块化的。

实验关键数据¶

主实验¶

在 4 个 QA 基准上用 N=16 个样本估计语义熵的 AUROC（正确性阈值 ROUGE-L < 0.3）：

方法	CoQA (OPT-13B)	TriviaQA (OPT-13B)	TruthfulQA (OPT-13B)	CoQA (LLaDA 8B)
Vanilla (τ=1)	.81±.04	.76±.06	.67±.04	.85±.04
Temperature (τ=2)	.82±.04	.80±.04	.67±.03	.89±.04
DBS	.83±.04	.85±.04	.67±.03	—
SDLG	.83±.03	.81±.04	.70±.04	—
Ours	.85±.04	.85±.04	.71±.04	.94±.02

消融实验¶

配置	语义簇覆盖	AUROC	ESS/N
完整方法（多样性+IS+CV）	最高	最佳	~0.4-0.6
无控制变量	最高	略降	~0.4-0.6
无重要性加权	最高	有偏下降	N/A
仅温度调节	中等	中等	1.0

关键发现¶

语义簇覆盖显著提升：在 CoQA 上，本方法平均覆盖的语义簇数量是标准采样的 1.5-2 倍（图4），这直接转化为更准确的不确定性估计
在模糊性高的数据集上优势最大：CoQA 和 AmbigQA（多答案问题）上提升最显著，因为这些场景的语义空间更广
对 MDM 效果尤为突出：LLaDA 8B 上 AUROC 从 .85 提升到 .94（+9%），首次证明 MDM 也可以进行高质量的语义不确定性估计
ESS/N > 0.4：重要性权重的有效样本量比率始终较高，说明多样性引导没有过度偏离原始分布
NLI 微调对前缀的处理质量好：蕴含概率在序列仅展开 30-50% 时就已收敛到最终判断（图2），说明前缀已包含足够的语义信号

亮点与洞察¶

生成与估计的对齐设计：用同一个 NLI 模型既引导多样性采样又定义下游的语义聚类，确保采样空间和估计空间一致。这种"度量驱动多样性"的思路远比无语义的温度调节更有原则性
极轻量的 NLI 适配：仅微调 0.3% 参数（一个 token 嵌入 + 分类头）就使 NLI 模型能处理不完整序列，工程优雅且实用
首次统一 ARM 和 MDM 的不确定性估计：通过分别处理 [TRUNC]（截断标记）和 [MASK]（掩码标记），同一框架适用于两种完全不同的生成范式
控制变量的零成本降方差：利用已有的模型对数概率作为控制变量，不增加任何推理开销就降低估计方差

局限性 / 可改进方向¶

顺序生成的计算开销：每个新样本需要与所有已有样本比较语义相似度，生成时间线性增长于样本数 N。批量并行策略是重要的未来方向
NLI 模型的局限：蕴含判断本身有噪声，尤其对于长文本和复杂推理。硬聚类（双向蕴含=同簇）可能遗漏渐变的语义差异
单一惩罚强度 λ 的鲁棒性：虽然论文提出了自适应 λ 策略，但在不同问题类型间的泛化仍需验证
依赖 NLI 模型与 LLM 的 tokenizer 兼容性：当两者 tokenizer 不同时，前缀处理需要额外的解码/重编码步骤

评分¶

新颖性: ⭐⭐⭐⭐ 多样性引导采样+重要性纠偏的组合是自然但执行精致的创新，NLI前缀微调是亮点
实验充分度: ⭐⭐⭐⭐ 4个QA基准、4个模型（含MDM）、多种采样对比，但消融可更系统化
写作质量: ⭐⭐⭐⭐⭐ 数学表述严谨，动机清晰，算法伪代码完整
价值: ⭐⭐⭐⭐ 模块化无需梯度访问LLM，实用性强；首次覆盖MDM不确定性估计有开拓意义