Credal Ensemble Distillation for Uncertainty Quantification¶
会议: AAAI 2026
arXiv: 2511.13766
代码: 无(补充文件中提供了实验代码)
领域: Model Compression / 不确定性量化
关键词: 知识蒸馏, 深度集成, 不确定性量化, Credal集, OOD检测
一句话总结¶
提出Credal Ensemble Distillation(CED)框架,将深度集成教师蒸馏为单模型CREDIT,该模型预测类别概率区间(定义credal集)而非单一softmax分布,在OOD检测任务上实现了优于或可比的不确定性估计,同时大幅降低推理开销(推理时间从5×降为1×)。
研究背景与动机¶
深度神经网络的不确定性量化(UQ)对模型的可信度和鲁棒性至关重要。不确定性分为两类: - 偶然不确定性(AU):数据生成过程的内在随机性 - 认知不确定性(EU):模型知识不足导致的不确定性
深度集成(DE) 通过组合多个独立训练的网络,已成为UQ的强基线方法,能有效区分AU和EU。但其关键瓶颈是推理成本高:M个模型意味着M倍的计算和存储。
现有蒸馏方案的局限:
集成蒸馏(ED):将DE蒸馏为输出单一softmax的SNN,但丢失了EU信息(单一分布无法表达关于不确定性的不确定性)
集成分布蒸馏(EDD):蒸馏为输出Dirichlet分布的模型,但缺乏ground-truth Dirichlet标签,且Dirichlet模型在实践中准确率严重下降(VGG16上仅74.56% vs SNN的91.79%),近期理论批评其EU解释不合理
核心矛盾:如何在单次推理中同时保留类别预测能力和EU量化能力?
本文的切入角度:用credal集(概率分布的凸集,由类别概率区间定义)替代单一分布或参数化分布,作为二阶不确定性表示。Credal集从DE的多个预测概率自然推导,且不需要像Dirichlet那样的分布假设。
方法详解¶
整体框架¶
CED包含三步:(1) 从DE教师的M个softmax输出通过credal wrapper提取概率区间和交叉概率;(2) 设计CREDIT学生模型,输出\(\mathbb{R}^{2C+1}\)向量编码交叉概率+区间长度+权重因子;(3) 用新损失函数训练学生匹配教师的credal信息。推理时用交叉概率做分类,完整输出重构credal集做UQ。
关键设计¶
-
Credal Wrapper(教师端):
- 功能:从DE的M个预测概率中提取类别概率区间
- 核心思路:对每个类别k,上界\(\overline{p}_k = \max_m p_{m,k}\),下界\(\underline{p}_k = \min_m p_{m,k}\)。这些区间定义credal集\(\mathbb{Q}\)。从中计算归一化的交叉概率\(p^*_k = \underline{p}_k + \beta(\overline{p}_k - \underline{p}_k)\),其中\(\beta = (1-\sum_k \underline{p}_k)/\sum_k \Delta p_k\)
- 设计动机:交叉概率是概率区间系统的最具代表性的单点估计。\(\beta\)因子确保交叉概率归一化
-
CREDIT学生架构:
- 功能:修改标准SNN的最后一层,输出\(2C+1\)个值
- 核心思路:前\(C\)个logit通过softmax得到交叉概率\(\mathbf{p}_S^*\),接下来\(C\)个通过sigmoid得到区间长度\(\Delta\mathbf{p}_S\),最后1个通过sigmoid得到权重因子\(\beta_S\)。从这三个量可重构概率区间:\(\underline{p}_{S,k} = p^*_{S,k} - \beta_S \Delta p_{S,k}\),\(\overline{p}_{S,k} = p^*_{S,k} + (1-\beta_S)\Delta p_{S,k}\)
- 设计动机:设计的关键约束是保证重构的概率区间有效(\(\underline{p} \leq p^* \leq \overline{p}\),\(\sum \underline{p} \leq 1 \leq \sum \overline{p}\))。通过softmax和sigmoid的组合以及数学证明确保了这一点
-
蒸馏损失函数:
- 功能:训练CREDIT匹配DE教师的credal信息
- 核心思路:\(\mathcal{L}_{ced} = \text{CE}(\mathbf{p}^*, \mathbf{p}_S^*) + \text{MSE}(\Delta\mathbf{p}, \Delta\mathbf{p}_S) + \text{MSE}(\beta, \beta_S)\)。第一项(交叉熵)保留预测性能,后两项(均方误差)学习credal集的imprecision
- 设计动机:将credal集蒸馏分解为三个可独立优化的目标:精确分类+区间宽度+区间位置。支持温度缩放(\(T=2.5\))
不确定性量化¶
从CREDIT重构的credal集\(\mathbb{Q}_S\),通过求解约束优化问题计算: - TU(总不确定性)= 最大Shannon熵 \(\overline{H}(\mathbb{Q}_S)\)(credal集内的最大熵概率向量) - AU(偶然不确定性)= 最小Shannon熵 \(\underline{H}(\mathbb{Q}_S)\) - EU(认知不确定性)= \(\overline{H} - \underline{H}\)(区间宽度反映模型知识不足)
实验关键数据¶
主实验(VGG16, CIFAR10 vs SVHN OOD检测)¶
| 方法 | AUROC(EU) | AUROC(TU) | AUPRC(EU) | AUPRC(TU) | 推理时间 |
|---|---|---|---|---|---|
| DE (5×) | 89.99 | 91.53 | 93.78 | 95.09 | 5×2.22s |
| SNN | / | 89.44 | / | 93.71 | 2.22s |
| ED | / | 91.07 | / | 94.51 | 2.22s |
| EDD* | 90.94 | 90.96 | 93.66 | 93.78 | 2.22s |
| MCDO | 51.42 | 89.12 | 74.72 | 93.64 | 2.22s |
| CED | 93.56 | 92.51 | 96.09 | 95.21 | 2.26s |
消融实验(ResNet50 + CIFAR10-C OOD)¶
| 方法 | AUROC(EU)↑ | AUROC(TU)↑ | 准确率 | 说明 |
|---|---|---|---|---|
| DE | 87.78 | 94.08 | 93.40 | 5模型集成,性能上限 |
| CED | 96.80 | 95.23 | 91.77 | 单模型,EU超越DE |
| ED | / | 94.09 | 92.02 | 无EU估计能力 |
| EDD* | 89.48 | 91.04 | 80.38 | 准确率严重下降 |
关键发现¶
- CED的EU估计显著优于所有baseline:在VGG16/SVHN上,CED EU-AUROC(93.56%)大幅超过DE(89.99%)和EDD*(90.94%),说明credal集比DE的离散采样和Dirichlet分布更好地捕捉EU
- CED在准确率上不妥协:CED(92.23%)与ED(92.18%)和SNN(91.79%)持平,而EDD(VGG16)准确率暴跌至74.56%
- EU vs TU:CED用EU做OOD检测通常优于TU,而其他方法用TU做更好。说明CED的EU估计质量有质的提升
- 推理效率:CED推理时间(2.26s)几乎等于SNN(2.22s),而DE需要5×2.22s=11.1s
- 集成大小消融:DE随集成大小增加持续提升,但CED在M=5时已接近收敛,说明distillation有效
- 温度缩放:\(T=2.5\)效果最好,过高的\(T=10\)反而降低性能
- 医学影像Case Study(Camelyon17):CED在OOD设置下EU的AUARC(97.12%)优于DE(95.92%)
亮点与洞察¶
- 将credal集引入知识蒸馏是一个优雅的创新:credal集作为二阶表示比Dirichlet更灵活(不需要分布假设),比DE更紧凑(单模型)
- CREDIT的架构设计极简(仅增加\(C+1\)个输出节点),对backbone无侵入性
- 数学上证明了CREDIT输出的概率区间始终有效(满足credal集条件),这种设计的正确性保证是工程上非常需要的
- 损失函数设计直觉清晰:CE保分类+MSE保imprecision,不需要像EDD那样的复杂学习策略
局限与展望¶
- 类别数限制:当\(C\)很大(100/1000类)时,softmax产生的概率值极小,可能导致回归损失不稳定
- 校准不足:CED的ECE(6.71%)远高于DE(1.46%),校准性还需改进
- 优化问题求解开销:计算\(\overline{H}\)和\(\underline{H}\)需要求解约束优化,\(C>10\)时开销可能不可忽略
- 仅验证分类任务:对回归、检测等任务的扩展性待探索
- 教师质量依赖:CED的上限受DE教师约束
相关工作与启发¶
- 与BNN相比:CED不需要权重后验分布,训练更简单
- 与EDD相比:CED避免了Dirichlet的ground-truth缺失问题和准确率下降问题
- Credal集在传统机器学习中有深厚理论根基(Levi 1980, imprecise probability theory),将其引入深度学习蒸馏是理论与实践的有效链接
- 启发:概率区间比点估计或参数化分布更适合表达"我们不知道什么"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (Credal集+蒸馏的组合首次提出,理论动机清晰)
- 实验充分度: ⭐⭐⭐⭐⭐ (多backbone/多数据集/多消融/医学case study)
- 写作质量: ⭐⭐⭐⭐ (内容密集但结构清晰)
- 价值: ⭐⭐⭐⭐⭐ (有望成为UQ领域的新标准方法,实用性强)
相关论文¶
- [ACL 2025] Quantification of Large Language Model Distillation
- [AAAI 2026] Condensed Data Expansion Using Model Inversion for Knowledge Distillation
- [NeurIPS 2025] Ensemble++: Scalable Exploration via Ensemble
- [AAAI 2026] TGDD: Trajectory Guided Dataset Distillation with Balanced Distribution
- [AAAI 2026] EEG-DLite: Dataset Distillation for Efficient Large EEG Model Training