Position: There Is No Free Bayesian Uncertainty Quantification¶

会议: NeurIPS 2025
arXiv: 2506.03670
代码: 无
领域: 统计学习理论 / 不确定性量化
关键词: 贝叶斯推断, 不确定性量化, 频率学派, PAC-Bayes, 预测区间

一句话总结¶

本文从频率学派视角质疑贝叶斯不确定性量化（UQ）的有效性，将贝叶斯更新重新解释为模型集成的优化问题，并提出基于PAC框架的校准算法以构建具有频率学派保证的预测区间。

研究背景与动机¶

贝叶斯方法因其直观的不确定性量化能力而在机器学习和深度学习中广受欢迎。给定参数空间上的先验分布，可以直接获得后验分布，通常被解释为模型的不确定性量化。然而，作者指出这种解释存在根本性问题：

先验选择困难：在现代ML的过参数化场景中，数据量远小于参数量，先验对后验有巨大影响，但缺乏明确的先验选择指导

Bernstein-von Mises定理不适用：该定理保证后验在有限维参数空间中渐近收敛到以MLE为中心的高斯分布，但ML场景中数据量与参数量相当甚至更小，使得该定理的适用性存疑

频率学派覆盖率无保障：Wenzel等人(2020)已经发现贝叶斯神经网络在过度计算证据时预测性能反而提升，违反了贝叶斯更新的信息处理最优性

频率学派方法同样受限：Bootstrap等方法在现代ML中因训练成本高和数据量少而不太适用

方法详解¶

整体框架¶

本文的核心论点构建在Knoblauch等人(2022)的优化视角之上，将贝叶斯更新重新表述为：

\[\min_{p \in \mathcal{P}} \{ E_{f \sim p}[l(f(x), y)] + D(p \| \pi_0) \}\]

其中 $\mathcal{P}$ 是函数类上的概率测度空间，$l$ 是损失函数，$\pi_0$ 是先验分布，$D$ 是散度度量。当选择负对数似然作为损失、KL散度作为 $D$ 时，解恰好是贝叶斯后验。

关键洞察：这个优化问题本身不包含任何显式的不确定性量化——它仅仅是在先验附近最小化期望损失。因此，基于后验的任何不确定性声明都值得怀疑。

关键设计¶

1. 先验分布质量评估¶

作者提出三种从频率学派角度评估先验质量的度量：

平均覆盖率（Average Quality）: $$Q(\pi_0) := \mathbb{E}_{X^t, Y^t} \mathbb{E}_{Y, X^*}[\mathbb{1}_K(Y)]$$

衡量在所有可能训练集和新数据上，预测区间包含真实值的平均概率。

最坏情况覆盖率（Worst-case Quality）: $$Q'(\pi_0) := \inf_{X^t, Y^t} \mathbb{E}_{Y, X^*}[\mathbb{1}_K(Y)]$$

衡量在最不利训练集下的覆盖率，适用于对不确定性容忍度低的场景。

概率覆盖率（Probabilistic Quality）: $$Q''(\pi_0) := \mathbb{P}((X^t, Y^t) \text{ s.t. } \mathbb{E}_{Y, X^*}[\mathbb{1}_K(Y)]) \geq 1 - \alpha$$

衡量有多少可能的数据集能实现有效覆盖，是前两者的折中。

2. 预测区间校准算法¶

给定已有的模型集成 $p(f)$，对于新输入 $X^* = x^*$，预测分布为：

\[P(Y^* | X^* = x^*) = \int P(Y^* | X^* = x^*, f) dp(f)\]

算法使用一个分位数估计数据集 $(X_i^v, Y_i^v)_{i=1}^m$，将问题转化为二分类：观测值是否落在预测区间内。定义经验风险：

\[\hat{R}((X^v, Y^v), q) := \frac{1}{m} \sum_{i=1}^m l(X_i^v, Y_i^v, q)\]

通过网格搜索找到最优分位数 $\hat{q}$，使得 $\hat{R} \leq \alpha$。

损失函数 / 训练策略¶

采用0-1损失函数：观测值在区间内损失为0，不在区间内损失为1。利用PAC框架可以证明，校准后的预测区间以高概率 $1-\epsilon$ 满足频率学派覆盖率要求：

\[\mathbb{P}((X^v, Y^v) \text{ s.t. } R((X,Y), \hat{q}) \leq \alpha + C(\epsilon)) \geq 1 - \epsilon(n)\]

其中 $C(\epsilon)$ 随样本量 $n$ 增加而减小。由于只估计单个参数 $q$，泛化间隙预期很小。

实验关键数据¶

主实验：模拟研究1（线性回归，正确模型设定）¶

先验均值 $i$	朴素方法覆盖率	校准方法覆盖率	目标覆盖率
$i \in [-5, 5]$	0.50–0.85（不达标）	≈ 0.90（达标）	0.90
$i \in [-10, -5) \cup (5, 10]$	0.50–0.65	0.70–0.85（受数值限制下降）	0.90
$i = 0$（最优先验）	≈ 0.85	≈ 0.90	0.90

数据设定：20个参数，30个训练样本，300个测试样本
先验：$\beta \sim \mathcal{N}_{20}(\mu = i \cdot \mathbf{1}, \Sigma = 2 \cdot I_{20})$，$i \in \{-10, ..., 10\}$
朴素方法的覆盖率从未达到目标0.90
校准方法在 $i \in [-5, 5]$ 范围内成功达标
校准方法的预测区间更宽，但随先验与真实值的偏差减小而缩短

消融实验：模拟研究2（模型错误设定）¶

缺失变量参数 $\beta_{20}$	朴素方法覆盖率	校准方法覆盖率	备注
$\beta_{20} = 1$（轻度错设）	0.50–0.80	≈ 0.90（达标）	校准方法仍然有效
$\beta_{20} = 3$（重度错设）	0.40–0.70	0.60–0.80（未达标）	两种方法均失败，但校准方法仍优于朴素方法

设定：同研究1，但额外引入一个不可观测的特征变量
轻度模型错设（$\beta_{20}=1$）时校准方法仍有效
重度模型错设（$\beta_{20}=3$）时，预测分布在观测数据区域赋予的概率过小，导致数值精度不够

关键发现¶

朴素贝叶斯预测区间永远无法达到正确的频率学派覆盖率，尤其当先验偏离真实值时
校准方法能显著改善覆盖率，在先验合理范围内可达到目标水平
改善覆盖率的代价是更宽的预测区间，这是合理的——更差的先验需要更大的不确定性来弥补
数值精度是校准方法的主要限制——当先验极度偏离时，预测分布在数据支撑区域的概率可能极小（如 $10^{-40}$）

亮点与洞察¶

概念突破：将贝叶斯后验重新解释为"最优模型集成"而非"不确定性量化"，这一视角转换非常深刻
优化视角统一：通过Knoblauch等人的框架，将经验风险最小化和贝叶斯推断统一在同一个优化问题中——移除散度项即退化为点估计
实用校准方案：提出的校准算法概念简单且通用，将覆盖率问题转化为一维搜索问题
理论与实践的桥梁：PAC框架保证了校准结果的频率学派有效性，同时保留了贝叶斯集成的优势

局限与展望¶

先验质量度量难以精确计算：$Q(\pi_0)$、$Q'(\pi_0)$、$Q''(\pi_0)$ 依赖于未知的数据分布，只能通过下界或重采样近似
仅验证了简单线性模型：模拟研究仅使用线性回归，尚未在神经网络等复杂模型上验证
数值精度限制：当模型拟合差或先验影响过大时，分位数 $\hat{q}$ 可能极小（如 $10^{-40}$），计算机难以处理
泛化误差未正式分析：校准算法的泛化间隙尚需理论证明（虽然作者认为单参数问题的泛化误差应该很低）
对称区间假设：当前算法仅构建对称预测区间，扩展到非对称区间需要二维优化
缺乏与Conformal Prediction的对比：作为频率学派覆盖率校准方法，未与近年流行的保形预测进行比较

评分¶

新颖性: ⭐⭐⭐⭐ — 虽是Position Paper，但将贝叶斯后验去UQ化的观点新颖且有理论支撑
理论深度: ⭐⭐⭐⭐ — 先验质量度量的数学定义严谨，PAC框架的应用恰当
实验充分性: ⭐⭐⭐ — 仅有线性回归模拟实验，缺乏复杂模型和真实数据验证
实用价值: ⭐⭐⭐ — 校准算法简单通用，但实际应用中的数值问题需要解决
写作质量: ⭐⭐⭐⭐ — 论述清晰，逻辑链条完整