SConU: Selective Conformal Uncertainty in Large Language Models¶
会议: ACL2025 arXiv: 2504.14154 代码: GitHub 领域: llm_nlp 关键词: conformal prediction, uncertainty quantification, LLM reliability, outlier detection, coverage guarantee
一句话总结¶
提出选择性保形不确定性框架 SConU,通过构建保形 p-value 进行显著性检验,首次实现对违反可交换性假设的不确定性数据异常点的自动过滤,从而在单域和跨域 QA 场景中严格管理 LLM 的错误覆盖率。
研究背景与动机¶
-
LLM 部署可靠性需求:大语言模型在问答等真实场景中广泛部署,但其生成内容在可信度和鲁棒性方面存在明显缺陷,需要对任务特定指标(如正确性覆盖率)提供统计保证。
-
分割保形预测的局限:现有保形不确定性(ConU)框架基于分割保形预测(SCP),要求校准集和测试样本的非一致性分数序列满足可交换性假设,但该假设在实际 NLG 任务中难以验证和具体表征。
-
单域内覆盖异常:实验发现即使在单一学科(如健康、经济)内部,使用不同 LLM 也会出现显著的覆盖率异常(EMR 超过指定风险水平),这与先前研究的假定相矛盾。
-
跨域场景更严重:当校准集和测试集来自不同学科时,错误覆盖率的违规更加严重,如 Figure 1(b) 展示了 LLaMA-3.1-8B-Instruct 在 MMLU-Pro 不同学科间的显著错误校准。
-
现有方法手动剔除样本:先前框架要求校准数据的候选集中必须包含可接受答案,手动移除不满足条件的样本,这限制了校准集可处理的测试样本数量。
-
缺乏异常检测机制:现有 ConU 框架未能识别违反可交换性假设的不确定性数据异常点,导致预测集的错误覆盖率无界且不可操作。
方法详解¶
整体框架¶
SConU 的工作流程:(1) 部署 LLM 后计算最小可管理风险水平 αl;(2) 对每个测试样本执行显著性检验,判断其不确定性状态是否与校准集分布一致;(3) 过滤异常点后对剩余样本执行保形程序,提供有限样本覆盖保证。
关键设计¶
保形 p-value(SConU):对测试数据点构建基础保形 p-value,计算校准集中不确定性不低于测试样本的比例。低 p-value 表明测试样本的不确定性显著偏离校准集分布。使用预测熵(PE)作为不确定性度量。
优化版保形 p-value(SConU-Pro):考虑校准集中也可能存在不确定性异常,引入预测状态作为额外计数条件——仅当校准样本在给定风险水平 α 下的预测集包含正确答案时,该样本才参与计数,确保统计严谨性。
最小风险水平推导:保持校准集完整性(不剔除样本),推导出校准集可管理的最小风险水平 αl = N·L_N(1)/(N+1),其中 L_N(1) 是候选集中不包含可接受答案的校准样本比例。对于 α ≥ αl,可严格管理覆盖率。
损失函数/目标¶
框架目标是在用户指定风险水平 α 下,使经验错误覆盖率 EMR ≤ α,同时最小化预测集大小(APSS)以提升操作效率。通过假设检验的显著性水平 δ 控制异常检测的误判率。
实验关键数据¶
主实验¶
- 数据集:3 个封闭式 QA(MMLU、MMLU-Pro、MedMCQA)+ 2 个开放域(TriviaQA、CoQA)
- 模型:8 个 LLM(含 LLaMA-3.1/3.2、Qwen-2-7B、OpenChat-3.5、Qwen2.5-14B 等)
- 评估指标:EMR(经验错误覆盖率)、SMR(按集合大小分层的错误覆盖率)、APSS(平均预测集大小)
- MMLU-Pro 上 EMR 控制(Table 2):未使用 SConU 时(❌),Health 和 Economics 学科在多个风险水平下 EMR 超过上界;使用 SConU(✔)后,EMR 均严格控制在风险水平之下
- 采样大小校准(Table 1):在 TriviaQA 和 MedMCQA 上验证了采样大小理论保证
| 模型 | 数据集 | β=0.1 | β=0.2 | β=0.3 |
|---|---|---|---|---|
| LLaMA-3.2-3B | TriviaQA | 0.0884±0.0149 | 0.1767±0.0109 | 0.2725±0.0194 |
| LLaMA-3.2-3B | MedMCQA | 0.0896±0.0078 | 0.1823±0.0084 | 0.2423±0.0072 |
| Qwen2.5-14B | TriviaQA | 0.0835±0.0201 | 0.1731±0.0075 | 0.1731±0.0075 |
| Qwen2.5-14B | MedMCQA | 0.0815±0.0047 | 0.0815±0.0047 | 0.0815±0.0047 |
所有概率均≤对应 β 水平,验证了理论覆盖保证。强模型(Qwen2.5-14B)在较低 β 即饱和。
消融实验¶
- SConU vs SConU-Pro:SConU-Pro 通过引入校准样本预测状态进一步降低 EMR 的标准差(如 Health 学科 Qwen-2-7B 在 α=0.5 时 Std 从 0.0424 降至 0.0358)
- 跨域场景(Figure 1b):在 MMLU-Pro 不同学科间校准时,SConU 将跨域错误覆盖率从显著违规降至可控范围
- 不确定性度量比较:预测熵(PE)在条件覆盖近似上优于其他不确定性度量
- 分割比例影响:校准集/测试集比例为 0.5 时取得最佳平衡,100 次随机实验取均值确保结果稳定
关键发现¶
- 覆盖异常广泛存在于单域场景中,不仅限于跨域——这是本文最重要的实证发现之一
- 保持校准集完整性比手动剔除样本能处理更多测试问题
- SConU 框架适用于白盒和黑盒两种设置
- 模型能力直接影响可交换性:强模型跨域分布更均匀,弱模型在不擅长领域 EMR 显著超标
亮点与洞察¶
- 首次引入显著性检验:在 LLM 保形预测中首次使用假设检验识别违反可交换性的样本,是方法论上的重要创新
- 保持校准集完整性:与先前工作不同,不手动删除校准样本,而是推导最小风险水平,扩大了框架的适用范围
- 理论与实验兼备:既有严格的统计推导(p-value 有效性证明),又有大规模实验验证
- 通用性强:适用于白盒/黑盒、封闭/开放域、单域/跨域等多种设置
局限性¶
- 最小风险水平 αl 依赖于模型能力,弱模型可能导致 αl 较高,限制了低风险水平下的适用性
- 显著性水平 δ 的选择需要在覆盖保证和预测集效率之间权衡
- 预测集可能包含语义冗余的回答(论文在 human-in-the-loop 场景中也提到了这一点)
- 计算开销随校准集大小和采样次数增长
相关工作与启发¶
- 与 ConU/BSCP 系列的关系:SConU 是现有 ConU 框架的增强版,通过异常检测前置步骤提升了统计严谨性
- 与异常检测的联系:借鉴了置换检验和保形 p-value 的思想用于不确定性异常检测
- 启发:该框架可扩展到其他需要覆盖保证的 NLG 任务(如摘要、翻译),也可以与 RAG 系统结合,在检索增强生成中提供可靠性保证
评分¶
- 新颖性: ⭐⭐⭐⭐ (首次将显著性检验引入 LLM 保形预测)
- 实验充分度: ⭐⭐⭐⭐ (5个数据集、8个模型、100次实验取均值)
- 写作质量: ⭐⭐⭐⭐ (理论推导清晰,图表信息丰富)
- 价值: ⭐⭐⭐⭐ (对 LLM 可靠部署有实际意义)