Probability Calibration for Precipitation Nowcasting¶

会议: NeurIPS 2025
arXiv: 2510.00594
代码: 无
领域: 时间序列 / 气象预报
关键词: 概率校准, 降水临近预报, 选择性缩放, 校准误差, 神经天气模型

一句话总结¶

提出了期望阈值校准误差（ETCE）作为降水临近预报中更合理的概率校准度量，并将计算机视觉中的后处理校准技术扩展到预报领域，通过结合前置时间条件的选择性缩放（Selective Scaling）方法将模型校准误差降低高达23.5%。

研究背景与动机¶

降水临近预报（precipitation nowcasting）——对未来最多4小时的降水进行高时空分辨率预测——对灾害响应、交通安全、城市排水管理和冬季道路养护等时间敏感型决策至关重要。近年来，深度神经网络（DNN）驱动的神经天气模型（NWM）已达到最先进水平，正被工业界和气象机构部署到运营中。

然而，许多应用不仅需要准确的预报，还需要概率预报——即预测概率能真实反映事件发生的可能性。概率预报的核心要求是校准性（calibration）：当模型以概率 \(p\) 预测某事件时，该事件实际发生的频率应恰好为 \(p\)。

现有的标准校准度量如期望校准误差（ECE）存在明显缺陷：

ECE 仅关注最高概率预测类别及其置信度，在多类别有序问题中会掩盖跨阈值的校准偏差
对于降水预报这种有序分类问题（如需要同时了解超过1mm和超过10mm的概率），ECE 无法捕捉全部降水区间的校准质量
静态校准误差（SCE）虽然扩展到多类别，但仍然假设类别之间是独立的，不适用于有序降水量

此外，与计算机视觉任务不同，天气预报还有一个独特维度——前置时间（lead time），这进一步增加了校准的复杂性。

方法详解¶

整体框架¶

本文工作包含两个核心贡献：（1）提出适用于降水预报的新校准度量ETCE；（2）将计算机视觉中的校准后处理技术扩展并适配到气象预报领域。整体流程为：使用固定的基础概率模型生成logit输出，然后通过轻量级校准器对输出进行后处理以改善校准性。

关键设计¶

1. 期望阈值校准误差（ETCE）

ETCE 的核心思想是：对于降水预报，应该在每个降水阈值 \(R_k\) 上分别评估校准性。给定 \(K\) 个降水阈值，首先计算超过每个阈值的累积概率 \(\hat{P}(r > R_k)\)，然后对每个阈值将预测按置信度分入 \(B\) 个等间距区间，最后计算：

\[\text{ETCE} = \frac{1}{K} \sum_{k=1}^{K} \sum_{b=1}^{B} w_b \left| \text{acc}(b, R_k) - \text{conf}(b, R_k) \right|\]

其中 \(w_b\) 为区间权重。由于降水是稀有事件，作者采用均匀权重 \(w_b = 1/B\) 而非按样本数加权，以避免干旱事件在度量中占据主导地位。实验中选择 \(B=20\)。

2. 温度缩放（Temperature Scaling, TS）

经典方法：学习单一参数 \(T \in \mathbb{R}^+\)，通过 \(\hat{p} = \sigma_{\text{softmax}}(z/T)\) 缩放预测概率。在分割任务中，一个温度值统一应用于所有像素和所有样本。

3. 局部温度缩放（Local Temperature Scaling, LTS）

为每个像素 \(x\) 学习不同的温度值，使用小型层级CNN从logit向量映射到温度值。作者的改进：仅使用logit作为输入，并通过FiLM（Feature-wise Linear Modulation）方法引入前置时间条件，对中间特征图施加基于前置时间信息的仿射变换。

4. 选择性缩放（Selective Scaling, SS）

基于关键观察：神经网络校准偏差的主要原因是对错误预测的过度自信。SS 的做法是： - 首先训练一个分类器（基于logit）来检测基础模型的错误预测 - 仅对检测到的错误预测应用温度缩放（\(T > 1\)），降低其过度自信 - 对正确预测保持原始概率不变

\[\hat{p} = \begin{cases} \sigma_{\text{softmax}}(z), & \text{if } \hat{y} = y \\ \sigma_{\text{softmax}}(z/T), & \text{if } \hat{y} \neq y \end{cases}\]

作者使用FiLM机制将前置时间编码融入3层MLP分类器，同时探索了基于Segformer的更大注意力架构。

基础模型与数据¶

基础模型：固定不变的概率模型，以前置时间为条件进行独立预测。架构包括： - 空间编码器：卷积层序列，将输入从 \(512 \times 512\) 降采样到 \(64 \times 64\)（512通道） - 注意力模块：4个轴向注意力层（512通道） - 分类头：输出12个通道（对应12个降水量区间） - 总参数量：21M

数据：输入包括7步MRMS雷达图像、2步16通道GOES卫星数据、1步HRRR数值天气模型降水预测，以及地形、经纬度、时间信息和前置时间。目标是MRMS降水量离散化为12个区间（0.2至10+ mm/h）。

校准训练数据：与基础模型训练数据在时间上不重叠： - 110K样本用于训练错误预测分类器 - 1K样本用于优化温度参数 - 47K样本用于评估

实验关键数据¶

主实验¶

校准方法	参数量	F1分数	平均ETCE	ΔETCE (%)
未校准基线	-	0.565	0.079	-
温度缩放（TS）	1	0.565	0.080	-1.0
LTS（无前置时间条件）	2,107	0.573	0.096	-21.3
LTS（含前置时间条件）	2,143	0.564	0.082	-3.6
选择性缩放 w/ MLP	3,254	0.564	0.060	+23.5
选择性缩放 w/ Segformer B0	3,728,550	0.567	0.062	+21.6

消融实验：不同Segformer分类器规模对比¶

分类器架构	相对ETCE改善	计算复杂度
MLP (3层)	23.5%	极低 (3,254参数)
Segformer-B0	21.6%	高 (3.7M参数)
Segformer-B1	~24%	更高
Segformer-B2	~24.8%	极高

更大规模的Segformer分类器仅带来约1.3%的ETCE改善，但计算成本大幅增加，MLP是最具性价比的选择。

关键发现¶

选择性缩放效果最佳：MLP版本的选择性缩放将ETCE降低23.5%，同时保持F1分数不变（0.564 vs 基线0.565），说明校准改善不以预测质量为代价。
温度缩放无效：单一温度参数的方法在降水预报中不仅无效，反而使ETCE恶化1%。这与计算机视觉中的某些正面结论相矛盾，说明预报问题的特殊性。
LTS需要前置时间条件：不加前置时间条件的LTS严重恶化校准（-21.3%），加入FiLM前置时间编码后损害减轻（-3.6%），但仍不如基线。
前置时间影响规律：在短前置时间（≤150分钟）内，MLP和Segformer-B0表现相当；在长前置时间，MLP表现更优，说明简单模型在长期预测中泛化更好。
校准主要改善过度自信：通过miscalibration图分析可知，未校准模型在各前置时间和降水阈值上普遍存在过度自信问题，选择性缩放有效减少了高置信度区间的校准偏差。

亮点与洞察¶

ETCE度量的设计合理性：通过阈值化处理保留了降水量的有序性质，使用均匀区间权重避免了稀有事件被干旱主导的问题
选择性缩放思路巧妙："只修正错误预测的置信度"这一策略避免了对已校准良好的正确预测产生干扰
FiLM条件机制的引入：将前置时间信息融入校准器是领域适配的关键创新，对所有方法都有正面作用
极其轻量：最佳方案仅需3,254个额外参数，实际部署成本几乎可以忽略

局限与展望¶

实验仅在北美地区的MRMS数据上验证，地理泛化性未知
校准器使用的是logit空间信息，未利用原始输入（如卫星图像）的空间上下文
ETCE使用均匀权重可能在某些应用场景中不是最优选择（如更关注强降水阈值）
未探索将选择性缩放与LTS结合的可能性
未来可考虑引入空间和/或时间信息作为额外条件

评分¶

新颖性: 3/5 — ETCE度量和FiLM条件化校准是合理的增量创新
技术深度: 3/5 — 方法相对简洁，但实验设计严谨
实验充分性: 3.5/5 — 消融实验完整，但仅单一数据集
实用价值: 4/5 — 方法极轻量，可直接部署到实际天气预报系统
写作质量: 4/5 — 结构清晰，图表直观