跳转至

Credal Ensemble Distillation for Uncertainty Quantification

会议: AAAI 2026
arXiv: 2511.13766
代码: 无(补充文件中提供了实验代码)
领域: Model Compression / 不确定性量化
关键词: 知识蒸馏, 深度集成, 不确定性量化, Credal集, OOD检测

一句话总结

提出Credal Ensemble Distillation(CED)框架,将深度集成教师蒸馏为单模型CREDIT,该模型预测类别概率区间(定义credal集)而非单一softmax分布,在OOD检测任务上实现了优于或可比的不确定性估计,同时大幅降低推理开销(推理时间从5×降为1×)。

研究背景与动机

深度神经网络的不确定性量化(UQ)对模型的可信度和鲁棒性至关重要。不确定性分为两类: - 偶然不确定性(AU):数据生成过程的内在随机性 - 认知不确定性(EU):模型知识不足导致的不确定性

深度集成(DE) 通过组合多个独立训练的网络,已成为UQ的强基线方法,能有效区分AU和EU。但其关键瓶颈是推理成本高:M个模型意味着M倍的计算和存储。

现有蒸馏方案的局限:

集成蒸馏(ED):将DE蒸馏为输出单一softmax的SNN,但丢失了EU信息(单一分布无法表达关于不确定性的不确定性)

集成分布蒸馏(EDD):蒸馏为输出Dirichlet分布的模型,但缺乏ground-truth Dirichlet标签,且Dirichlet模型在实践中准确率严重下降(VGG16上仅74.56% vs SNN的91.79%),近期理论批评其EU解释不合理

核心矛盾:如何在单次推理中同时保留类别预测能力和EU量化能力?

本文的切入角度:用credal集(概率分布的凸集,由类别概率区间定义)替代单一分布或参数化分布,作为二阶不确定性表示。Credal集从DE的多个预测概率自然推导,且不需要像Dirichlet那样的分布假设。

方法详解

整体框架

CED包含三步:(1) 从DE教师的M个softmax输出通过credal wrapper提取概率区间和交叉概率;(2) 设计CREDIT学生模型,输出\(\mathbb{R}^{2C+1}\)向量编码交叉概率+区间长度+权重因子;(3) 用新损失函数训练学生匹配教师的credal信息。推理时用交叉概率做分类,完整输出重构credal集做UQ。

关键设计

  1. Credal Wrapper(教师端):

    • 功能:从DE的M个预测概率中提取类别概率区间
    • 核心思路:对每个类别k,上界\(\overline{p}_k = \max_m p_{m,k}\),下界\(\underline{p}_k = \min_m p_{m,k}\)。这些区间定义credal集\(\mathbb{Q}\)。从中计算归一化的交叉概率\(p^*_k = \underline{p}_k + \beta(\overline{p}_k - \underline{p}_k)\),其中\(\beta = (1-\sum_k \underline{p}_k)/\sum_k \Delta p_k\)
    • 设计动机:交叉概率是概率区间系统的最具代表性的单点估计。\(\beta\)因子确保交叉概率归一化
  2. CREDIT学生架构:

    • 功能:修改标准SNN的最后一层,输出\(2C+1\)个值
    • 核心思路:前\(C\)个logit通过softmax得到交叉概率\(\mathbf{p}_S^*\),接下来\(C\)个通过sigmoid得到区间长度\(\Delta\mathbf{p}_S\),最后1个通过sigmoid得到权重因子\(\beta_S\)。从这三个量可重构概率区间:\(\underline{p}_{S,k} = p^*_{S,k} - \beta_S \Delta p_{S,k}\)\(\overline{p}_{S,k} = p^*_{S,k} + (1-\beta_S)\Delta p_{S,k}\)
    • 设计动机:设计的关键约束是保证重构的概率区间有效(\(\underline{p} \leq p^* \leq \overline{p}\)\(\sum \underline{p} \leq 1 \leq \sum \overline{p}\))。通过softmax和sigmoid的组合以及数学证明确保了这一点
  3. 蒸馏损失函数:

    • 功能:训练CREDIT匹配DE教师的credal信息
    • 核心思路:\(\mathcal{L}_{ced} = \text{CE}(\mathbf{p}^*, \mathbf{p}_S^*) + \text{MSE}(\Delta\mathbf{p}, \Delta\mathbf{p}_S) + \text{MSE}(\beta, \beta_S)\)。第一项(交叉熵)保留预测性能,后两项(均方误差)学习credal集的imprecision
    • 设计动机:将credal集蒸馏分解为三个可独立优化的目标:精确分类+区间宽度+区间位置。支持温度缩放(\(T=2.5\)

不确定性量化

从CREDIT重构的credal集\(\mathbb{Q}_S\),通过求解约束优化问题计算: - TU(总不确定性)= 最大Shannon熵 \(\overline{H}(\mathbb{Q}_S)\)(credal集内的最大熵概率向量) - AU(偶然不确定性)= 最小Shannon熵 \(\underline{H}(\mathbb{Q}_S)\) - EU(认知不确定性)= \(\overline{H} - \underline{H}\)(区间宽度反映模型知识不足)

实验关键数据

主实验(VGG16, CIFAR10 vs SVHN OOD检测)

方法 AUROC(EU) AUROC(TU) AUPRC(EU) AUPRC(TU) 推理时间
DE (5×) 89.99 91.53 93.78 95.09 5×2.22s
SNN / 89.44 / 93.71 2.22s
ED / 91.07 / 94.51 2.22s
EDD* 90.94 90.96 93.66 93.78 2.22s
MCDO 51.42 89.12 74.72 93.64 2.22s
CED 93.56 92.51 96.09 95.21 2.26s

消融实验(ResNet50 + CIFAR10-C OOD)

方法 AUROC(EU)↑ AUROC(TU)↑ 准确率 说明
DE 87.78 94.08 93.40 5模型集成,性能上限
CED 96.80 95.23 91.77 单模型,EU超越DE
ED / 94.09 92.02 无EU估计能力
EDD* 89.48 91.04 80.38 准确率严重下降

关键发现

  • CED的EU估计显著优于所有baseline:在VGG16/SVHN上,CED EU-AUROC(93.56%)大幅超过DE(89.99%)和EDD*(90.94%),说明credal集比DE的离散采样和Dirichlet分布更好地捕捉EU
  • CED在准确率上不妥协:CED(92.23%)与ED(92.18%)和SNN(91.79%)持平,而EDD(VGG16)准确率暴跌至74.56%
  • EU vs TU:CED用EU做OOD检测通常优于TU,而其他方法用TU做更好。说明CED的EU估计质量有质的提升
  • 推理效率:CED推理时间(2.26s)几乎等于SNN(2.22s),而DE需要5×2.22s=11.1s
  • 集成大小消融:DE随集成大小增加持续提升,但CED在M=5时已接近收敛,说明distillation有效
  • 温度缩放\(T=2.5\)效果最好,过高的\(T=10\)反而降低性能
  • 医学影像Case Study(Camelyon17):CED在OOD设置下EU的AUARC(97.12%)优于DE(95.92%)

亮点与洞察

  • 将credal集引入知识蒸馏是一个优雅的创新:credal集作为二阶表示比Dirichlet更灵活(不需要分布假设),比DE更紧凑(单模型)
  • CREDIT的架构设计极简(仅增加\(C+1\)个输出节点),对backbone无侵入性
  • 数学上证明了CREDIT输出的概率区间始终有效(满足credal集条件),这种设计的正确性保证是工程上非常需要的
  • 损失函数设计直觉清晰:CE保分类+MSE保imprecision,不需要像EDD那样的复杂学习策略

局限与展望

  • 类别数限制:当\(C\)很大(100/1000类)时,softmax产生的概率值极小,可能导致回归损失不稳定
  • 校准不足:CED的ECE(6.71%)远高于DE(1.46%),校准性还需改进
  • 优化问题求解开销:计算\(\overline{H}\)\(\underline{H}\)需要求解约束优化,\(C>10\)时开销可能不可忽略
  • 仅验证分类任务:对回归、检测等任务的扩展性待探索
  • 教师质量依赖:CED的上限受DE教师约束

相关工作与启发

  • 与BNN相比:CED不需要权重后验分布,训练更简单
  • 与EDD相比:CED避免了Dirichlet的ground-truth缺失问题和准确率下降问题
  • Credal集在传统机器学习中有深厚理论根基(Levi 1980, imprecise probability theory),将其引入深度学习蒸馏是理论与实践的有效链接
  • 启发:概率区间比点估计或参数化分布更适合表达"我们不知道什么"

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (Credal集+蒸馏的组合首次提出,理论动机清晰)
  • 实验充分度: ⭐⭐⭐⭐⭐ (多backbone/多数据集/多消融/医学case study)
  • 写作质量: ⭐⭐⭐⭐ (内容密集但结构清晰)
  • 价值: ⭐⭐⭐⭐⭐ (有望成为UQ领域的新标准方法,实用性强)

相关论文