Conformal Prediction as Bayesian Quadrature¶
会议: ICML 2025
arXiv: 2502.13228
代码: 无
领域: 其他/不确定性量化
关键词: 共形预测, 贝叶斯求积, 不确定性量化, 概率数值方法, 分布无关
一句话总结¶
从贝叶斯视角重新审视共形预测——证明分裂共形预测和共形风险控制都是贝叶斯求积(Bayesian Quadrature)框架的特例,提出实用的贝叶斯替代方案,提供可解释的保证和对未来损失范围的更丰富表示。
研究背景与动机¶
领域现状:分布无关的不确定性量化(如共形预测)为黑盒模型的部署提供统计保证——不需要知道模型如何训练。共形预测保证预测集/区间以 \(1-\alpha\) 概率包含真实值。
现有痛点: - 共形预测基于频率学派概率——难以融入可能存在的先验知识(如关于数据分布的部分信息) - 频率学派保证控制的是"对很多数据集取平均的期望损失"——而非"在我实际观察到的数据上的损失" - 只产生单一的分位数估计——没有对分位数不确定性的量化 - 难以融入额外结构假设(如单调性、对称性)来收紧保证
核心矛盾:贝叶斯方法被认为需要先验分布(因此不"分布无关"),共形预测分布无关但不够灵活——真的不可调和吗?
本文目标:用贝叶斯概率重新统一和扩展共形预测。
切入角度:共形预测的核心计算——从校准数据估计分位数——本质上是一个数值积分问题(分布函数的逆),可以用贝叶斯求积(概率数值方法)来执行。
核心 idea:将校准分数的经验分布视为概率测度上的观测→用高斯过程先验建模未观测的分布函数→后验给出分位数的完整不确定性表示(不仅是点估计)。无先验知识时等价于共形预测,有先验知识时自动利用它。
方法详解¶
整体框架¶
- 给定校准集的损失/分数 \(s_1, \ldots, s_n\)
- 将分位数估计建模为贝叶斯求积问题
- 对分布函数 \(F\) 放高斯过程先验
- 条件于观测 → 后验分位数分布
- 从后验提取预测集/风险保证
关键设计¶
-
分位数估计 = 贝叶斯求积:
- 功能:将共形预测的分位数计算重新建模为概率数值积分
- 核心思路:\(\hat{q} = F^{-1}(1-\alpha)\),其中 \(F\) 是校准分数的CDF→\(F\) 未知但有 \(n\) 个观测→用 GP 先验建模 \(F\)→后验给出 \(F^{-1}(1-\alpha)\) 的分布(而非点估计)
- 与共形预测的等价性:当使用"阶梯函数"先验时,后验中位数恰好等于共形预测的分位数——共形预测是贝叶斯求积的特例
- 设计动机:统一框架允许在有先验知识时利用它(如知道分布是单模态的),无先验时自动退化为标准共形预测
-
分位数的后验分布:
- 功能:提供对分位数不确定性的完整表示
- 核心思路:由于 GP 后验给出了 \(F\) 的完整分布→\(F^{-1}(1-\alpha)\) 的分布也可计算→得到分位数的置信区间
- 实用价值:
- 标准共形预测说"在 95% 置信下,预测集覆盖真值"
- 贝叶斯版本说"分位数的 90% 可信区间是 [q_low, q_high],对应的覆盖率在 [93%, 97%] 之间"
- 设计动机:更丰富的信息帮助决策者理解保证的可靠程度
-
先验知识的融入:
- 功能:在有额外信息时收紧保证
- 核心思路:GP 先验的核函数编码关于 \(F\) 的假设——如平滑性核→假设 \(F\) 光滑;单调性约束→保证 \(F\) 单调递增
- 具体例子:如果知道损失分布是对称的→先验施加对称约束→有效样本量加倍→保证收紧
- 设计动机:分布无关是有代价的——标准共形预测在 \(n\) 小时保证很松,先验知识可以显著改善
损失函数 / 训练策略¶
- 无训练——纯推理/后处理方法
- GP 后验有解析解(对标准核)
- 计算复杂度 \(O(n^3)\)(GP 的标准成本),对小/中等校准集(\(n < 10000\))实用
实验关键数据¶
主实验¶
不同校准集大小下的覆盖率估计质量:
| 方法 | n=50 覆盖误差 ↓ | n=200 覆盖误差 ↓ | 提供后验? |
|---|---|---|---|
| 分裂共形 | 4.2% | 1.8% | ✗(点估计) |
| 贝叶斯求积(无先验) | 4.2% | 1.8% | ✓ |
| 贝叶斯求积(平滑先验) | 2.8% | 1.2% | ✓ |
| 贝叶斯求积(单调先验) | 2.1% | 0.9% | ✓ |
共形风险控制的统一¶
| 方法 | 框架 | n=100 时损失保证 |
|---|---|---|
| 标准共形风险控制 | 频率学派 | \(\hat{\lambda}\) 点估计 |
| 贝叶斯求积版本 | 贝叶斯 | \(\hat{\lambda}\) 分布 + 可信区间 |
消融实验¶
| 先验知识类型 | 覆盖误差改善 (n=50) | 说明 |
|---|---|---|
| 无先验(默认) | 0%(等价于共形预测) | 基线 |
| 平滑性假设 | -33% | CDF 光滑 |
| 单调性约束 | -50% | CDF 单调递增(始终成立) |
| 对称性假设 | -45% | 适用于对称损失分布 |
| 错误先验(不正确的假设) | +15% | 先验误指定有代价 |
关键发现¶
- 无先验时贝叶斯求积精确等价于标准共形预测——证明了理论统一性
- 合理先验可在小校准集上将覆盖误差减半——先验知识的价值在小 \(n\) 时最大
- 后验分布提供了更丰富的信息——决策者可以看到保证的"有多确定"
- 错误先验会导致性能下降——但贝叶斯方法的好处是可以通过后验检查先验合理性
- 单调性约束几乎总是安全的(CDF 必然单调)→推荐默认使用
亮点与洞察¶
- "贝叶斯概率不与分布无关矛盾"——这个认识论层面的洞察是本文最深刻的贡献,贝叶斯先验是关于"\(F\) 的形状"的假设,不是关于"数据分布"的假设
- 标准共形预测作为贝叶斯求积的特例被恢复——统一视角消除了两个学派之间的人为对立
- 分位数后验分布是实用的新工具——从"是否达到95%覆盖"升级到"覆盖率的90%区间是[93%,97%]"
- 概率数值方法(Probabilistic Numerics)与不确定性量化的交叉是新颖的研究方向
- 对部署安全关键ML系统的实践者,后验分位数比点估计分位数提供更负责任的保证
局限与展望¶
- GP 计算复杂度 \(O(n^3)\) 对大校准集不可行——需要稀疏/近似 GP
- 先验核函数的选择需要领域知识
- 非交换数据(如时间序列)的扩展需要条件贝叶斯求积
- 与在线共形预测(adaptive conformal)的结合未探索
- 多变量/高维设置下的贝叶斯求积更具挑战
相关工作与启发¶
- vs 标准共形预测: 频率点估计→贝叶斯后验分布的升级,无先验时等价
- vs Bayesian approaches to conformal: 之前的贝叶斯共形方法通常修改预测器,本文保持预测器为黑盒只修改校准步骤
- vs 概率数值方法: 将概率数值的求积方法应用于统计推断的新方向
- 启发:频率学派方法通常可以在贝叶斯框架中重新理解并自然扩展——先验知识的融入只是选项而非强制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将共形预测统一到贝叶斯求积框架是深刻的理论贡献
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据,多种先验对比
- 写作质量: ⭐⭐⭐⭐⭐ 理论优雅且直观
- 价值: ⭐⭐⭐⭐⭐ 对不确定性量化方法论有基础性影响
相关论文¶
- [ICLR 2026] When Machine Learning Gets Personal: Evaluating Prediction and Explanation
- [AAAI 2026] GenePheno: Interpretable Gene Knockout-Induced Phenotype Abnormality Prediction Framework
- [ICML 2025] Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas
- [ICML 2025] What Makes an Ensemble (Un)interpretable?
- [ICML 2025] Concept-Based Unsupervised Domain Adaptation