SConU: Selective Conformal Uncertainty in Large Language Models¶

会议: ACL2025 arXiv: 2504.14154 代码: GitHub 领域: llm_nlp 关键词: conformal prediction, uncertainty quantification, LLM reliability, outlier detection, coverage guarantee

一句话总结¶

提出选择性保形不确定性框架 SConU，通过构建保形 p-value 进行显著性检验，首次实现对违反可交换性假设的不确定性数据异常点的自动过滤，从而在单域和跨域 QA 场景中严格管理 LLM 的错误覆盖率。

研究背景与动机¶

LLM 部署可靠性需求：大语言模型在问答等真实场景中广泛部署，但其生成内容在可信度和鲁棒性方面存在明显缺陷，需要对任务特定指标（如正确性覆盖率）提供统计保证。
分割保形预测的局限：现有保形不确定性（ConU）框架基于分割保形预测（SCP），要求校准集和测试样本的非一致性分数序列满足可交换性假设，但该假设在实际 NLG 任务中难以验证和具体表征。
单域内覆盖异常：实验发现即使在单一学科（如健康、经济）内部，使用不同 LLM 也会出现显著的覆盖率异常（EMR 超过指定风险水平），这与先前研究的假定相矛盾。
跨域场景更严重：当校准集和测试集来自不同学科时，错误覆盖率的违规更加严重，如 Figure 1(b) 展示了 LLaMA-3.1-8B-Instruct 在 MMLU-Pro 不同学科间的显著错误校准。
现有方法手动剔除样本：先前框架要求校准数据的候选集中必须包含可接受答案，手动移除不满足条件的样本，这限制了校准集可处理的测试样本数量。
缺乏异常检测机制：现有 ConU 框架未能识别违反可交换性假设的不确定性数据异常点，导致预测集的错误覆盖率无界且不可操作。

方法详解¶

整体框架¶

SConU 的工作流程：(1) 部署 LLM 后计算最小可管理风险水平 αl；(2) 对每个测试样本执行显著性检验，判断其不确定性状态是否与校准集分布一致；(3) 过滤异常点后对剩余样本执行保形程序，提供有限样本覆盖保证。

关键设计¶

保形 p-value（SConU）：对测试数据点构建基础保形 p-value，计算校准集中不确定性不低于测试样本的比例。低 p-value 表明测试样本的不确定性显著偏离校准集分布。使用预测熵（PE）作为不确定性度量。

优化版保形 p-value（SConU-Pro）：考虑校准集中也可能存在不确定性异常，引入预测状态作为额外计数条件——仅当校准样本在给定风险水平 α 下的预测集包含正确答案时，该样本才参与计数，确保统计严谨性。

最小风险水平推导：保持校准集完整性（不剔除样本），推导出校准集可管理的最小风险水平 αl = N·L_N(1)/(N+1)，其中 L_N(1) 是候选集中不包含可接受答案的校准样本比例。对于 α ≥ αl，可严格管理覆盖率。

损失函数/目标¶

框架目标是在用户指定风险水平 α 下，使经验错误覆盖率 EMR ≤ α，同时最小化预测集大小（APSS）以提升操作效率。通过假设检验的显著性水平 δ 控制异常检测的误判率。

实验关键数据¶

主实验¶

数据集：3 个封闭式 QA（MMLU、MMLU-Pro、MedMCQA）+ 2 个开放域（TriviaQA、CoQA）
模型：8 个 LLM（含 LLaMA-3.1/3.2、Qwen-2-7B、OpenChat-3.5、Qwen2.5-14B 等）
评估指标：EMR（经验错误覆盖率）、SMR（按集合大小分层的错误覆盖率）、APSS（平均预测集大小）
MMLU-Pro 上 EMR 控制（Table 2）：未使用 SConU 时（❌），Health 和 Economics 学科在多个风险水平下 EMR 超过上界；使用 SConU（✔）后，EMR 均严格控制在风险水平之下
采样大小校准（Table 1）：在 TriviaQA 和 MedMCQA 上验证了采样大小理论保证

模型	数据集	β=0.1	β=0.2	β=0.3
LLaMA-3.2-3B	TriviaQA	0.0884±0.0149	0.1767±0.0109	0.2725±0.0194
LLaMA-3.2-3B	MedMCQA	0.0896±0.0078	0.1823±0.0084	0.2423±0.0072
Qwen2.5-14B	TriviaQA	0.0835±0.0201	0.1731±0.0075	0.1731±0.0075
Qwen2.5-14B	MedMCQA	0.0815±0.0047	0.0815±0.0047	0.0815±0.0047

所有概率均≤对应 β 水平，验证了理论覆盖保证。强模型（Qwen2.5-14B）在较低 β 即饱和。

消融实验¶

SConU vs SConU-Pro：SConU-Pro 通过引入校准样本预测状态进一步降低 EMR 的标准差（如 Health 学科 Qwen-2-7B 在 α=0.5 时 Std 从 0.0424 降至 0.0358）
跨域场景（Figure 1b）：在 MMLU-Pro 不同学科间校准时，SConU 将跨域错误覆盖率从显著违规降至可控范围
不确定性度量比较：预测熵（PE）在条件覆盖近似上优于其他不确定性度量
分割比例影响：校准集/测试集比例为 0.5 时取得最佳平衡，100 次随机实验取均值确保结果稳定

关键发现¶

覆盖异常广泛存在于单域场景中，不仅限于跨域——这是本文最重要的实证发现之一
保持校准集完整性比手动剔除样本能处理更多测试问题
SConU 框架适用于白盒和黑盒两种设置
模型能力直接影响可交换性：强模型跨域分布更均匀，弱模型在不擅长领域 EMR 显著超标

亮点与洞察¶

首次引入显著性检验：在 LLM 保形预测中首次使用假设检验识别违反可交换性的样本，是方法论上的重要创新
保持校准集完整性：与先前工作不同，不手动删除校准样本，而是推导最小风险水平，扩大了框架的适用范围
理论与实验兼备：既有严格的统计推导（p-value 有效性证明），又有大规模实验验证
通用性强：适用于白盒/黑盒、封闭/开放域、单域/跨域等多种设置

局限性¶

最小风险水平 αl 依赖于模型能力，弱模型可能导致 αl 较高，限制了低风险水平下的适用性
显著性水平 δ 的选择需要在覆盖保证和预测集效率之间权衡
预测集可能包含语义冗余的回答（论文在 human-in-the-loop 场景中也提到了这一点）
计算开销随校准集大小和采样次数增长

评分¶

新颖性: ⭐⭐⭐⭐ (首次将显著性检验引入 LLM 保形预测)
实验充分度: ⭐⭐⭐⭐ (5个数据集、8个模型、100次实验取均值)
写作质量: ⭐⭐⭐⭐ (理论推导清晰，图表信息丰富)
价值: ⭐⭐⭐⭐ (对 LLM 可靠部署有实际意义)