Credal Ensemble Distillation for Uncertainty Quantification¶

会议: AAAI 2026
arXiv: 2511.13766
代码: 无（补充文件中提供了实验代码）
领域: Model Compression / 不确定性量化
关键词: 知识蒸馏, 深度集成, 不确定性量化, Credal集, OOD检测

一句话总结¶

提出Credal Ensemble Distillation（CED）框架，将深度集成教师蒸馏为单模型CREDIT，该模型预测类别概率区间（定义credal集）而非单一softmax分布，在OOD检测任务上实现了优于或可比的不确定性估计，同时大幅降低推理开销（推理时间从5×降为1×）。

研究背景与动机¶

深度神经网络的不确定性量化（UQ）对模型的可信度和鲁棒性至关重要。不确定性分为两类： - 偶然不确定性（AU）：数据生成过程的内在随机性 - 认知不确定性（EU）：模型知识不足导致的不确定性

深度集成（DE） 通过组合多个独立训练的网络，已成为UQ的强基线方法，能有效区分AU和EU。但其关键瓶颈是推理成本高：M个模型意味着M倍的计算和存储。

现有蒸馏方案的局限：

集成蒸馏（ED）：将DE蒸馏为输出单一softmax的SNN，但丢失了EU信息（单一分布无法表达关于不确定性的不确定性）

集成分布蒸馏（EDD）：蒸馏为输出Dirichlet分布的模型，但缺乏ground-truth Dirichlet标签，且Dirichlet模型在实践中准确率严重下降（VGG16上仅74.56% vs SNN的91.79%），近期理论批评其EU解释不合理

核心矛盾：如何在单次推理中同时保留类别预测能力和EU量化能力？

本文的切入角度：用credal集（概率分布的凸集，由类别概率区间定义）替代单一分布或参数化分布，作为二阶不确定性表示。Credal集从DE的多个预测概率自然推导，且不需要像Dirichlet那样的分布假设。

方法详解¶

整体框架¶

CED包含三步：(1) 从DE教师的M个softmax输出通过credal wrapper提取概率区间和交叉概率；(2) 设计CREDIT学生模型，输出\(\mathbb{R}^{2C+1}\)向量编码交叉概率+区间长度+权重因子；(3) 用新损失函数训练学生匹配教师的credal信息。推理时用交叉概率做分类，完整输出重构credal集做UQ。

关键设计¶

Credal Wrapper（教师端）:
- 功能：从DE的M个预测概率中提取类别概率区间
- 核心思路：对每个类别k，上界\(\overline{p}_k = \max_m p_{m,k}\)，下界\(\underline{p}_k = \min_m p_{m,k}\)。这些区间定义credal集\(\mathbb{Q}\)。从中计算归一化的交叉概率\(p^*_k = \underline{p}_k + \beta(\overline{p}_k - \underline{p}_k)\)，其中\(\beta = (1-\sum_k \underline{p}_k)/\sum_k \Delta p_k\)
- 设计动机：交叉概率是概率区间系统的最具代表性的单点估计。\(\beta\)因子确保交叉概率归一化
CREDIT学生架构:
- 功能：修改标准SNN的最后一层，输出\(2C+1\)个值
- 核心思路：前\(C\)个logit通过softmax得到交叉概率\(\mathbf{p}_S^*\)，接下来\(C\)个通过sigmoid得到区间长度\(\Delta\mathbf{p}_S\)，最后1个通过sigmoid得到权重因子\(\beta_S\)。从这三个量可重构概率区间：\(\underline{p}_{S,k} = p^*_{S,k} - \beta_S \Delta p_{S,k}\)，\(\overline{p}_{S,k} = p^*_{S,k} + (1-\beta_S)\Delta p_{S,k}\)
- 设计动机：设计的关键约束是保证重构的概率区间有效（\(\underline{p} \leq p^* \leq \overline{p}\)，\(\sum \underline{p} \leq 1 \leq \sum \overline{p}\)）。通过softmax和sigmoid的组合以及数学证明确保了这一点
蒸馏损失函数:
- 功能：训练CREDIT匹配DE教师的credal信息
- 核心思路：\(\mathcal{L}_{ced} = \text{CE}(\mathbf{p}^*, \mathbf{p}_S^*) + \text{MSE}(\Delta\mathbf{p}, \Delta\mathbf{p}_S) + \text{MSE}(\beta, \beta_S)\)。第一项（交叉熵）保留预测性能，后两项（均方误差）学习credal集的imprecision
- 设计动机：将credal集蒸馏分解为三个可独立优化的目标：精确分类+区间宽度+区间位置。支持温度缩放（\(T=2.5\)）

不确定性量化¶

从CREDIT重构的credal集\(\mathbb{Q}_S\)，通过求解约束优化问题计算： - TU（总不确定性）= 最大Shannon熵 \(\overline{H}(\mathbb{Q}_S)\)（credal集内的最大熵概率向量） - AU（偶然不确定性）= 最小Shannon熵 \(\underline{H}(\mathbb{Q}_S)\) - EU（认知不确定性）= \(\overline{H} - \underline{H}\)（区间宽度反映模型知识不足）

实验关键数据¶

主实验（VGG16, CIFAR10 vs SVHN OOD检测）¶

方法	AUROC(EU)	AUROC(TU)	AUPRC(EU)	AUPRC(TU)	推理时间
DE (5×)	89.99	91.53	93.78	95.09	5×2.22s
SNN	/	89.44	/	93.71	2.22s
ED	/	91.07	/	94.51	2.22s
EDD*	90.94	90.96	93.66	93.78	2.22s
MCDO	51.42	89.12	74.72	93.64	2.22s
CED	93.56	92.51	96.09	95.21	2.26s

消融实验（ResNet50 + CIFAR10-C OOD）¶

方法	AUROC(EU)↑	AUROC(TU)↑	准确率	说明
DE	87.78	94.08	93.40	5模型集成，性能上限
CED	96.80	95.23	91.77	单模型，EU超越DE
ED	/	94.09	92.02	无EU估计能力
EDD*	89.48	91.04	80.38	准确率严重下降

关键发现¶

CED的EU估计显著优于所有baseline：在VGG16/SVHN上，CED EU-AUROC(93.56%)大幅超过DE(89.99%)和EDD*(90.94%)，说明credal集比DE的离散采样和Dirichlet分布更好地捕捉EU
CED在准确率上不妥协：CED(92.23%)与ED(92.18%)和SNN(91.79%)持平，而EDD(VGG16)准确率暴跌至74.56%
EU vs TU：CED用EU做OOD检测通常优于TU，而其他方法用TU做更好。说明CED的EU估计质量有质的提升
推理效率：CED推理时间(2.26s)几乎等于SNN(2.22s)，而DE需要5×2.22s=11.1s
集成大小消融：DE随集成大小增加持续提升，但CED在M=5时已接近收敛，说明distillation有效
温度缩放：\(T=2.5\)效果最好，过高的\(T=10\)反而降低性能
医学影像Case Study（Camelyon17）：CED在OOD设置下EU的AUARC(97.12%)优于DE(95.92%)

亮点与洞察¶

将credal集引入知识蒸馏是一个优雅的创新：credal集作为二阶表示比Dirichlet更灵活（不需要分布假设），比DE更紧凑（单模型）
CREDIT的架构设计极简（仅增加\(C+1\)个输出节点），对backbone无侵入性
数学上证明了CREDIT输出的概率区间始终有效（满足credal集条件），这种设计的正确性保证是工程上非常需要的
损失函数设计直觉清晰：CE保分类+MSE保imprecision，不需要像EDD那样的复杂学习策略

局限与展望¶

类别数限制：当\(C\)很大（100/1000类）时，softmax产生的概率值极小，可能导致回归损失不稳定
校准不足：CED的ECE(6.71%)远高于DE(1.46%)，校准性还需改进
优化问题求解开销：计算\(\overline{H}\)和\(\underline{H}\)需要求解约束优化，\(C>10\)时开销可能不可忽略
仅验证分类任务：对回归、检测等任务的扩展性待探索
教师质量依赖：CED的上限受DE教师约束

评分¶

新颖性: ⭐⭐⭐⭐⭐ （Credal集+蒸馏的组合首次提出，理论动机清晰）
实验充分度: ⭐⭐⭐⭐⭐ （多backbone/多数据集/多消融/医学case study）
写作质量: ⭐⭐⭐⭐ （内容密集但结构清晰）
价值: ⭐⭐⭐⭐⭐ （有望成为UQ领域的新标准方法，实用性强）