Measuring Uncertainty Calibration¶
会议: ICLR 2026
arXiv: 2512.13872
代码: GitHub
领域: 机器学习理论 / 校准
关键词: 校准误差, 有限样本界, 分布无关, 有界变差, 核估计
一句话总结¶
针对二分类器 \(L_1\) 校准误差的有限样本估计问题,分别在有界变差和有界导数两种结构假设下,提出了首个非渐近、分布无关的可认证上界方法,其中有界导数假设通过对分类器输出施加微小扰动即可保证,实验表明在 \(10^7\) 样本量下可将校准误差上界控制在约 0.02。
研究背景与动机¶
领域现状:机器学习模型的输出概率是否与真实事件概率匹配——即校准性(calibration)——对决策任务至关重要。当前最常用的校准度量是 ECE(Expected Calibration Error),通过将模型输出分桶后计算每个桶内的平均误差来估计。然而这种方法对分桶方案的选择高度敏感,不同的桶数和划分方式会给出截然不同的校准误差估计。
现有痛点:现有校准测量方法面临一个根本困境。如果将分桶视为分类器的外挂后处理,那么估计值不可靠、完全依赖桶设置(Arrieta-Ibarra et al., 2022 已经证实了这一点);如果将分桶视为分类器的有机组成部分,则分类性能会受损,因为训练时未考虑分桶操作,梯度无法反向传播通过离散的桶边界。另一类方法(如 KS 检验、Kuiper 检验)将校准问题建模为频率学假设检验,虽然统计功效强,但只能判断"是否完美校准",无法量化不同模型之间的误校准程度差异,且其理论保证依赖渐近分析。更根本的问题是,Lee et al. (2023) 证明了即使假设校准函数连续都不足以从有限样本一致地估计校准误差。
核心矛盾:校准误差估计需要对校准函数 \(\eta(s) = \mathbb{E}[Y|S=s]\) 做结构性假设,但假设太强会限制方法的适用范围,假设太弱则样本效率差、界太松。如何在假设强度和估计精度之间取得良好的平衡?
本文目标 提供可计算的、有理论保证的校准误差上界,满足三个核心要求:(1) 非渐近——对任意有限样本量都成立,(2) 分布无关——不限制分数分布的形式(可以是离散、连续或混合),(3) 实际可行——在合理的计算和数据量下产出有意义的界。
切入角度:作者观察到,虽然无法对任意 \(\eta\) 估计校准误差,但可以在两种现实且可验证的结构假设下分别给出保证。第一种是有界变差(弱假设但通用),第二种是有界导数(更强但可通过扰动构造性地保证)。两种方法针对不同应用场景各有所长。
核心 idea:通过构造校准函数的代理 \(\hat{\eta}\)(TV 去噪或 Nadaraya-Watson 核平滑),将校准误差分解为"代理校准误差 + 代理构建误差",两部分均可从数据中计算并用 Bernstein 不等式建立概率上界。
方法详解¶
整体框架¶
方法的核心架构分为三步:(1) 将数据集划分为训练集 \(T\) 和验证集 \(V\)(实际使用 K 折交叉拟合);(2) 在训练集上构建校准函数 \(\eta\) 的代理 \(\hat{\eta}\);(3) 在验证集上用 Bernstein 不等式估计代理校准误差,加上代理构建误差的理论上界,得到 CE 的可认证概率上界。关键的数学分解为:
关键设计¶
-
有界变差假设下的 TV 去噪方法:
- 功能:在校准函数有界变差 \(\text{TV}(\eta, [0,1]) \leq V\) 的假设下,构建 \(\eta\) 的分段常数代理函数
- 核心思路:在训练集排序后,求解 TV 去噪优化问题 \(\hat{\eta}_T = \arg\min_{v \in [0,1]^{|T|}} \frac{1}{2|T|}\|y_T - v\|_2^2 + \lambda\|Dv\|_1\),其中 \(D\) 是一阶差分矩阵,\(\lambda\) 根据置信度参数 \(\delta_1\) 设定为 \(\sqrt{\frac{1}{8|T|}\ln\frac{4(|T|-1)}{\delta_1}}\)。得到的 \(\hat{\eta}\) 是分段常数函数,可以看成一种数据驱动的自适应分桶方案,桶的边界和数量完全由数据决定。重建误差 TVB(\(\delta_1\)) 基于 Hütter & Rigollet (2016) 的理论结果给出,再加上总体迁移界 PTB 将训练集保证推广到总体
- 设计动机:有界变差是能保证有限样本估计的最弱结构假设之一。实际中,如果分类器训练得当,高分数对应高正类概率,则 \(\eta\) 近似单调——所有单调函数在 \([0,1]\) 上的总变差自然有界于 1,所以 \(V=1\) 是合理的默认选择
-
扰动 + 有界导数假设下的 NW 核平滑方法:
- 功能:对任意分类器,通过在输出上施加微小随机扰动,使其校准函数自动具有有界导数,从而启用更紧的核平滑估计
- 核心思路:关键创新在于不需要假设原始分类器有任何好的性质。对分类器输出 \(s_{\text{orig}}\) 按照 hyperbolic secant 核 \(k(s|s_{\text{orig}}) = \frac{1}{Z}\text{sech}(\frac{s_{\text{orig}} - s}{h})\) 采样扰动后的分数 \(s \in [0,1]\)。核心引理证明:无论 \(\eta_{\text{orig}}\) 的性质如何,扰动后的校准函数 \(\eta\) 自动具有有界一阶导(\(\leq \frac{1}{2h}\))和二阶导(\(\leq \frac{3}{2h^2}\))。有了导数界,就可以用 Nadaraya-Watson 核平滑器构建代理 \(\hat{\eta}(s') = \sum_{i \in T} w_i(s') y_i\),其重建误差 \(g_T(s')\) 可从数据精确计算且随样本量衰减
- 设计动机:(1) 从第一性原理保证可分析性,避免不可验证的假设;(2) 有界导数是比有界变差更强的假设,因此理论速率从 \(n^{-1/4}\) 提升到 \(n^{-1/3}\),样本效率显著改善;(3) 选择 sech 核而非截断高斯,因为 sech 核在 \([0,1]\) 上的导数界表达式更为简洁
-
K 折交叉拟合(Cross-Fitting):
- 功能:将数据分为 \(K\) 折,每折轮流作验证集,聚合结果以减少方差
- 核心思路:每个验证点由未见过它的训练集拟合的代理来评分,保持了理论所需的训练/验证独立性前提,同时避免了固定划分造成的数据浪费
- 设计动机:同时满足理论有效性和实践效率
损失函数 / 训练策略¶
当使用扰动方法时,需要在训练阶段也考虑扰动的影响。具体做法是修改训练损失函数,使模型在知道推理时会有扰动的前提下优化分类性能。实验表明这一修改的额外训练成本几乎为零。
实验关键数据¶
主实验:合成数据上各方法的收敛速率¶
在四种已知 ground truth 的合成校准函数上评估上界质量与样本量的关系:
| 方法 | 经验收敛速率 | 理论速率 | 所需假设 | 合成数据表现 |
|---|---|---|---|---|
| NW (核平滑) | \([-0.406, -0.213]\) | \(-1/3\) | 有界导数 | 所有函数上最紧上界 |
| TV (去噪) | \([-0.423, -0.164]\) | \(-1/4\) | 有界变差 | 一致收敛但较松 |
| Lip+Bkt | \([-0.574, -0.346]\) | \(-1/3\) | Lipschitz | 速率同 NW 但常数更大 |
| ECE (启发式) | 不一致 | 无保证 | 无 | 第四种函数完全失败 |
NW 方法在所有四种合成函数上均给出最紧的上界。ECE 在前三种函数上表现尚可,但在第四种函数上完全失败——误差不随样本量增大而减小,展示了无保证启发式方法的根本风险。
消融实验:扰动带宽对分类性能的影响¶
| 数据集 | 模型 | \(h = 2^{-6}\) AUROC变化 | \(h = 2^{-4}\) AUROC变化 | \(h = 2^{-6}\) 下校准误差上界 |
|---|---|---|---|---|
| IMDB | BERT | \(< 0.001\) 下降 | 明显下降 | ~0.02 (\(10^7\) 样本) |
| Spam Detection | BERT | \(< 0.001\) 下降 | 明显下降 | ~0.02 (\(10^7\) 样本) |
| CIFAR | ViT | \(< 0.001\) 下降 | 明显下降 | ~0.02 (\(10^7\) 样本) |
关键发现¶
- ECE 不可靠:在第四种合成校准函数上,ECE 即使样本量无限增长也无法收敛到真实值,说明启发式方法在某些场景下会系统性地给出错误估计
- NW 的常数优势:NW 和 Lipschitz 分桶的理论收敛速率相同(\(n^{-1/3}\)),但 NW 的常数项显著更小,实际上界紧度差异可达数倍
- 扰动几乎无代价:\(h = 2^{-6}\) 的扰动对所有三个真实数据集的 AUROC 影响不到 0.001,但足以保证有界导数从而启用 NW 方法
- 计算高效:所有方法至多对数线性时间复杂度,NW 的滑动窗口实现为线性时间,约 4 分钟即可完成 64 次重复实验(含样本量至 \(10^7\))
- 所有结果统计显著:64 次重复的置信区间太小以至于图中不可见
亮点与洞察¶
- 扰动保证平滑性是本文最巧妙的 idea。不需要对原始分类器做任何假设,仅通过一个简单的随机扰动就能构造性地保证校准函数具有有界导数。这种"通过构造获得数学可分析性"的思路可以迁移到其他需要平滑性假设的统计估计问题中
- TV 去噪 = 自适应分桶的重新解释赋予了经典的分桶方法全新的理论基础。传统分桶的问题在于桶的选择是人为的,TV 去噪则通过最优化自动确定桶的数量和边界
- sech 核的选择体现了数学美感与实用性的统一:相比截断高斯,sech 核在 \([0,1]\) 上的性质更优,导数界的表达式更简洁,这是一个看似细节但影响理论结果优雅程度的关键选择
局限与展望¶
- 仅适用于二分类:当前理论完全限于二分类器,多分类校准(如 top-1 校准、classwise 校准)的推广是重要的开放问题
- 样本需求依然很高:需要约 \(10^7\) 样本才能将校准误差上界降至 ~0.02,这对于小规模评估集或低频事件预测是不现实的
- 扰动需要重训练:虽然代价微小,但扰动方法需要在训练损失中加入扰动感知项并重新训练模型,对于已部署的模型只能退而使用更弱的 TV 方法
- 上界为主:论文主要关注上界,虽然技术上下界也可以给出,但未深入探讨双边界的实用价值
相关工作与启发¶
- vs ECE 分桶方法:传统 ECE 是启发式方法,无理论保证且依赖桶设置选择。本文方法提供可认证的概率上界,其中 NW 方法还更紧。但 ECE 胜在计算简单、小样本也能给出一个估计值(尽管不可靠)
- vs KS/Kuiper 检验方法 (Arrieta-Ibarra et al., 2022):KS 方法基于累积分数的随机游走性质,统计功效高但只能做"是否完美校准"的二元判断,且依赖渐近理论。本文方法可量化误校准程度、非渐近成立且可解释性更强
- vs Lipschitz 假设方法 (Vaicenavicius et al., 2019; Futami & Fujisawa, 2024):之前工作直接假设 Lipschitz 但不证明合理性。本文通过扰动从第一性原理保证有界导数(从而 Lipschitz),且 NW 方法的常数项更优,上界更紧
评分¶
- 新颖性: ⭐⭐⭐⭐ 扰动保证平滑性的 idea 非常新颖优雅,但整体"代理+浓度不等式"框架是标准技巧
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据覆盖全面,64次重复统计显著,但真实数据无 ground truth 难以全面验证
- 写作质量: ⭐⭐⭐⭐⭐ 数学严谨、逻辑清晰、实用建议部分特别好,是理论+实践兼顾的优秀写作范例
- 价值: ⭐⭐⭐⭐ 解决了校准测量的基础理论问题,对需要可靠校准评估的高风险应用场景有直接实用价值
相关论文¶
- [ICLR 2026] TabStruct: Measuring Structural Fidelity of Tabular Data
- [CVPR 2025] Uncertainty Weighted Gradients for Model Calibration
- [ACL 2025] A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates
- [ACL 2026] MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification
- [AAAI 2026] Sampling Control for Imbalanced Calibration in Semi-Supervised Learning