跳转至

Uncertainty Estimation by Flexible Evidential Deep Learning

会议: NeurIPS 2025
arXiv: 2510.18322
代码:
领域: Uncertainty Quantification
关键词: 不确定性量化, 证据深度学习, Flexible Dirichlet分布, OOD检测, 单前向传播

一句话总结

提出 \(\mathcal{F}\)-EDL,通过将 EDL 中的 Dirichlet 分布推广为 Flexible Dirichlet (FD) 分布来建模类别概率分布,从而在保持单次前向传播效率的同时,显著增强不确定性估计在噪声、长尾、分布偏移等复杂场景下的泛化能力。

研究背景与动机

不确定性量化 (UQ) 对于将ML模型部署在自动驾驶、医疗诊断等高风险场景至关重要。有效的UQ方法需要同时满足两个要求:(1)计算高效,适用于实时系统;(2)泛化能力强,适应多样化场景。

经典UQ方法(贝叶斯神经网络、MC Dropout、深度集成)虽然成熟,但需要多次前向传播,代价高昂。证据深度学习 (EDL) 通过预测类别概率上的 Dirichlet 分布来量化不确定性,仅需单次前向传播,兼具效率优势。

然而,EDL 的核心假设——类别概率服从 Dirichlet 分布——限制了模型的表达能力。在噪声数据 (DMNIST) 实验中,EDL 在噪声分布内数据 (AMNIST) 和分布外数据 (FMNIST) 之间产生严重重叠,无法有效区分。作者认为,Dirichlet 分布的单模态特性是导致 EDL 在复杂场景下鲁棒性不足的根本原因。这促使了更灵活但依然高效的UQ方法的研究。

方法详解

整体框架

\(\mathcal{F}\)-EDL 将 EDL 中的 Dirichlet 分布替换为 Flexible Dirichlet (FD) 分布,通过共享特征提取器 \(f_\theta\) 和三个预测头分别预测 FD 分布的三组参数:浓度参数 \(\boldsymbol{\alpha}\)、分配概率 \(\mathbf{p}\)、离散度 \(\tau\)。框架包括三个核心组件:模型结构、目标函数和基于标签方差的不确定性度量。

关键设计

  1. Flexible Dirichlet 分布: FD 分布是 Dirichlet 分布的推广,通过对 Flexible Gamma 基进行归一化得到。其构造为 \(Y_k = W_k + Z_k U\),其中 \(W_k \sim \text{Gamma}(\alpha_k)\) 为独立 Gamma 变量,\(U \sim \text{Gamma}(\tau)\) 为共享随机分量,\(\mathbf{Z} \sim \text{Mu}(1, \mathbf{p})\) 为多项式分布。FD 分布可以表示为 Dirichlet 混合分布,具有多模态特性,能捕获复杂的不确定性模式。

  2. 三头预测结构: 从特征 \(\mathbf{z} = f_\theta(\mathbf{x})\) 出发,三个神经网络头分别预测:\(\boldsymbol{\alpha} = \exp(g_{\phi_1}(\mathbf{z}))\)(浓度参数,exp 激活保证非负性),\(\mathbf{p} = \text{softmax}(g_{\phi_2}(\mathbf{z}))\)(分配概率),\(\tau = \text{softplus}(g_{\phi_3}(\mathbf{z}))\)(离散度)。对特征提取器和 \(\alpha\) 预测头施加谱归一化以强化 Lipschitz 连续性。

  3. 多模态类别概率分布 (Theorem 4.4): \(\mathcal{F}\)-EDL 的类别概率分布为 Dirichlet 混合:\(p_{\mathcal{F}\text{-EDL}}(\boldsymbol{\pi}|\mathbf{x}^*) = \sum_{k=1}^K p_k \text{Dir}(\boldsymbol{\pi}|\boldsymbol{\alpha} + \tau \mathbf{e}_k)\),模式数由 \(\|\mathbf{p}\|_0\) 决定。这使模型能表达"犹豫于多个可能类别"的复杂不确定性。

  4. EDL-Softmax 混合分解 (Theorem 4.5): \(\mathcal{F}\)-EDL 的预测分布可分解为 EDL 和 Softmax 的自适应混合:\(p_{\mathcal{F}\text{-EDL}}(y|\mathbf{x}^*) = w_{\text{EDL}} \cdot p_{\text{EDL}} + w_{\text{SM}} \cdot p_{\text{SM}}\),权重 \(w_{\text{EDL}} = \alpha_0/(\alpha_0+\tau)\), \(w_{\text{SM}} = \tau/(\alpha_0+\tau)\) 依赖输入。对干净ID数据EDL占主导,对模糊/OOD数据模型在两者间插值。

损失函数 / 训练策略

目标函数由两项组成:

\[\mathcal{L} = \mathbb{E}_{\boldsymbol{\pi} \sim \text{FD}} [\|\mathbf{y} - \boldsymbol{\pi}\|_2^2] + \|\mathbf{y} - \mathbf{p}\|_2^2\]

第一项是 FD 分布下的期望 MSE,利用 FD 分布的闭式矩进行解析训练,无需采样。第二项是 Brier score 正则化项,促进 \(\mathbf{p}\) 的输入依赖校准,防止退化解。相比传统 EDL 的 KL 散度正则化,该损失函数减少了对超参数的敏感性。

不确定性度量采用基于标签方差的方法,通过全方差定律将预测不确定性分解为偶然性不确定性 (AU) 和认知不确定性 (EU)。

实验关键数据

主实验

CIFAR-10/100 经典场景 (Table 1):

方法 CIFAR-10 Acc CIFAR-10 OOD (SVHN) CIFAR-100 Acc CIFAR-100 OOD (SVHN)
EDL 83.55 79.12 45.91 56.21
I-EDL 89.20 82.96 66.38 67.51
R-EDL 90.09 85.00 63.53 61.80
DAEDL 91.11 85.54 66.01 72.07
F-EDL 91.19 91.20 69.40 75.35

噪声场景 DMNIST (Table 4):

方法 Test Acc 误分类检测 (Conf.) OOD检测 (FMNIST)
DDU 84.05 82.73 98.49
DAEDL 84.12 95.93 99.44
F-EDL 84.28 96.17 99.76

消融实验

FD 参数消融 (Table 5, DMNIST):

配置 Test Acc OOD检测 (FMNIST) 说明
Fix-p(U), τ 83.34 97.22 固定p为均匀+固定τ=1
Fix-p(N), τ 83.27 97.91 固定p为归一化α+固定τ=1
Fix-τ 83.39 98.46 仅固定τ=1
F-EDL (full) 84.28 99.76 同时学习p和τ

关键发现

  • F-EDL 在 CIFAR-10 OOD 检测 (SVHN) 上相比 DAEDL 提升约 5.7 个百分点
  • 在长尾场景 (CIFAR-10-LT, ρ=0.1) 下,F-EDL OOD 检测同样最优
  • F-EDL 的认知不确定性随训练数据增加单调递减,符合理论预期,而 EDL 和 DAEDL 表现不一致
  • 推理速度仅比 EDL 慢 1.3%,但比 DAEDL 快 50% 以上

亮点与洞察

  • 理论完备:证明了 FD 分布是分类似然的共轭先验、F-EDL 是 EDL 的严格推广、多模态特性、EDL-Softmax 混合分解等五个定理
  • 多模态可视化令人信服:对模糊输入(如数字 9/7),F-EDL 产生双峰分布,EDL 则塌缩为单峰过度自信预测
  • 额外参数开销极小(VGG-16 仅增 1.8%),推理几乎无额外成本

局限与展望

  • 目前仅限于分类任务,扩展到回归是自然方向
  • 偶然性与认知不确定性的解耦尚不完全
  • 仍依赖外部正则化控制认知不确定性,缺乏内在稳定的训练目标
  • 未在大规模数据集(如 ImageNet)上验证

相关工作与启发

  • 与 DAEDL 的特征空间密度方法互补,可考虑将 FD 分布引入密度估计流程
  • Logit adjustment 与 F-EDL 结合可能进一步提升长尾场景表现
  • FD 分布可替代 Dirichlet 组件用于多视角学习等可信融合任务

评分

  • 新颖性: ⭐⭐⭐⭐ (FD 分布用于 UQ 是首次,但核心思路是已知分布的推广)
  • 实验充分度: ⭐⭐⭐⭐⭐ (覆盖经典/长尾/噪声/分布偏移,消融充分)
  • 写作质量: ⭐⭐⭐⭐⭐ (理论与实验结合极好,结构清晰)
  • 价值: ⭐⭐⭐⭐ (对 EDL 体系有实质性推进)

相关论文