On Temperature Scaling and Conformal Prediction of Deep Classifiers¶

会议: ICML2025
arXiv: 2402.05806
代码: 未提供
领域: 其他/校准与Conformal Prediction
关键词: Temperature Scaling, 共形预测, 不确定性量化, 校准, 预测集大小, 条件覆盖

一句话总结¶

首次系统研究 Temperature Scaling (TS) 校准对 Conformal Prediction (CP) 方法的影响，揭示 TS 在改善 APS/RAPS 类条件覆盖率的同时会增大预测集尺寸的反直觉现象，建立了完整的非单调理论解释并提出实用指南。

研究背景与动机¶

深度分类器的不确定性量化主要有两类后处理方法：

校准 (Calibration)：调整 softmax 值使其最大值更好地估计正确概率。Temperature Scaling (TS) 是最流行的方法，将 logits 除以温度 \(T\) 后再做 softmax：\(\hat{\pi}_T(\mathbf{x}) = \sigma(\mathbf{z}(\mathbf{x})/T)\)

Conformal Prediction (CP)：生成一组候选标签的预测集，保证以用户指定概率包含真实标签（边际覆盖保证）

在关键应用中两者都需要——校准提供置信度估计，CP 提供覆盖保证。然而此前几乎无人研究两者的交互效应。虽然 APS、RAPS 等论文在使用 CP 前会先做 TS 校准，但没有人调查过 TS 校准究竟如何影响 CP 的表现。

核心问题：TS 校准对 CP 方法（LAC、APS、RAPS）的预测集大小和条件覆盖到底产生什么影响？

方法详解¶

研究框架¶

论文分三步递进： 1. 实证研究：在多个数据集-模型对上考察 TS 校准对 CP 的效果 2. 扩展探索：将温度 \(T\) 从校准值扩展到 \([0.5, 5]\) 的广泛范围 3. 理论分析：建立数学理论解释观察到的非单调现象

三种 CP 方法的评分函数¶

LAC：\(s(\mathbf{x}, y) = 1 - \hat{\pi}_y(\mathbf{x})\)，直接用 softmax 值
APS：\(s(\mathbf{x}, y) = \sum_{i=1}^{L_y} \hat{\pi}_{(i)}(\mathbf{x})\)，累积排序后的 softmax 值
RAPS：\(s(\mathbf{x}, y) = \sum_{i=1}^{L_y} \hat{\pi}_{(i)}(\mathbf{x}) + \lambda(L_y - k_{reg})_+\)，在 APS 基础上加正则项

其中 \(\hat{\pi}_{(i)}\) 是降序排列后的第 \(i\) 个 softmax 值，\(L_y\) 是真实标签排序后的位置。

关键理论结果¶

定理 4.1（阈值单调递减）：对排序 logits 向量 \(\mathbf{z}\)，当温度 \(T\) 增大时，前 \(L\) 个排序 softmax 值的累积和严格递减：

\[T > \tilde{T} > 0 \implies \sum_{j=1}^{L} \pi_{\tilde{T},j} \geq \sum_{j=1}^{L} \pi_{T,j}\]

推论 4.2：APS 和 RAPS 的阈值 \(\hat{q}_T\) 随温度 \(T\) 单调递减。

定理 4.4（非单调性解释）：定义间隙函数 \(g(\mathbf{z}; T, M) = \sum_{i=1}^M \sigma_i(\mathbf{z}) - \sum_{i=1}^M \sigma_i(\mathbf{z}/T)\)，以及边界函数 \(b(T)\)。当 \(\Delta z = z_1 - z_2 > b(T)\) 时：

若 \(T > 1\)：\(\nabla_{z_1} g < 0\)，意味着高分样本的间隙更小 → 预测集变大
若 \(0 < T < 1\)：\(\nabla_{z_1} g > 0\)，意味着高分样本的间隙更大 → 预测集变小

边界函数 \(b(T)\) 在 \(T > 1\) 时存在极小值点 \(\tilde{T}_c\)，解释了预测集大小先增后减的非单调趋势。

核心机制直觉¶

TS 增大温度 (\(T > 1\)) 时： - 阈值效应：\(\hat{q}_T\) 下降（有利于减小预测集） - 打散效应：softmax 分布变平，前几个累积值下降更快（导致需要更多类才能累积到阈值） - 竞争结果：当 \(T\) 适中时打散效应主导 → 预测集变大；\(T\) 很大时两者趋于平衡 → 预测集开始缩小

实验关键数据¶

主表：TS 校准对预测集大小的影响（\(\alpha=0.1\)）¶

数据集-模型	\(T^*\)	准确率	APS原始	APS校准后	RAPS原始	RAPS校准后	LAC原始	LAC校准后
ImageNet-ResNet152	1.227	78.3%	6.34	11.11	2.71	4.30	1.95	1.92
ImageNet-ViT-B/16	1.180	83.9%	10.10	19.27	1.93	2.34	2.22	2.23
CIFAR100-ResNet50	1.524	80.9%	5.31	9.14	2.88	4.96	1.62	1.57
CIFAR100-DenseNet121	1.469	76.1%	4.26	6.51	2.98	4.27	2.13	2.06
CIFAR10-ResNet50	1.761	94.6%	1.04	1.13	0.98	1.05	0.91	0.91

关键发现：TS 校准后 APS/RAPS 的预测集大小显著增加（如 ImageNet-ViT APS 从 10.10 增至 19.27），但 LAC 几乎不受影响。

条件覆盖改善（TopCovGap \(\downarrow\) 更好）¶

数据集-模型	APS原始	APS校准后	RAPS原始	RAPS校准后
ImageNet-ResNet152	16.0%	13.8%	17.6%	15.2%
ImageNet-ViT-B/16	14.2%	12.2%	14.7%	12.5%
CIFAR100-ResNet50	12.6%	9.0%	11.7%	7.9%

关键发现：TS 校准改善了 APS/RAPS 的类条件覆盖率，尤其在 \(T^*\) 较大时改善明显。

非单调趋势（广范围温度实验）¶

预测集大小 (AvgSize)：随 \(T\) 增大先升后降，在 \(T_c\) 处达到峰值
条件覆盖 (TopCovGap)：随 \(T\) 增大先降后升，在极小值处达到最佳条件覆盖
阈值 (\(\hat{q}\))：APS/RAPS 阈值随 \(T\) 单调递减（验证定理 4.1）
此规律在 7 个数据集-模型对上一致复现

理论验证¶

以 CIFAR100-ResNet50 为例：中位样本 \(\Delta z \approx 8\)，\(C = 100\)，理论边界给出有效温度范围 \(1.25 < T < 2.33\)，校准温度 \(T^* = 1.524\) 恰好落在此范围内，严格证明了校准后中位样本的预测集会变大。

亮点与洞察¶

反直觉发现：TS 校准虽然改善条件覆盖，但令人意外地增大了 APS/RAPS 的预测集尺寸——此前无人注意到这一矛盾
完整的非单调图景：不仅在校准点 \(T^*\) 处研究，还在 \([0.5, 5]\) 广范围揭示了预测集大小与条件覆盖的完整 trade-off 曲线
严格理论支撑：定理 4.1 → 4.4 逐步建立完整的数学解释链，边界函数 \(b(T)\) 的形状完美解释了非单调趋势
实用价值：为从业者提供了可操作的指南——通过调节温度 \(T\) 来控制预测集大小与条件覆盖的 trade-off
差异化贡献：清楚区分了 TS 对不同 CP 方法的影响（LAC 不受影响 vs APS/RAPS 显著受影响），给出选择建议

局限与展望¶

条件覆盖的理论缺失：论文仅对预测集大小建立了理论，条件覆盖的理论分析留作未来工作
仅限分类任务：未扩展到回归或其他预测任务的 CP
仅考虑 TS：未研究其他校准方法（如 Platt Scaling、Histogram Binning）对 CP 的影响
技术假设：理论分析依赖于"校准前后 quantile sample 相同"的假设，虽有实验支持但不完全严格
缺少代码：论文未提供公开代码库，限制了可复现性
实际指南偏简单：trade-off 控制缺少自动化的温度选择策略

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统揭示 TS 与 CP 的交互，反直觉发现有价值
实验充分度: ⭐⭐⭐⭐⭐ — 7 个数据集-模型对，多种 \(\alpha\) 和 CP set 比例，100 次中位数-均值统计
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验→理论的递进逻辑好，理论推导完整
价值: ⭐⭐⭐⭐ — 对 CP 实践者有直接指导意义，理论贡献扎实