Probability Calibration for Precipitation Nowcasting¶
会议: NeurIPS 2025
arXiv: 2510.00594
代码: 无
领域: 时间序列 / 气象预报
关键词: 概率校准, 降水临近预报, 选择性缩放, 校准误差, 神经天气模型
一句话总结¶
提出了期望阈值校准误差(ETCE)作为降水临近预报中更合理的概率校准度量,并将计算机视觉中的后处理校准技术扩展到预报领域,通过结合前置时间条件的选择性缩放(Selective Scaling)方法将模型校准误差降低高达23.5%。
研究背景与动机¶
降水临近预报(precipitation nowcasting)——对未来最多4小时的降水进行高时空分辨率预测——对灾害响应、交通安全、城市排水管理和冬季道路养护等时间敏感型决策至关重要。近年来,深度神经网络(DNN)驱动的神经天气模型(NWM)已达到最先进水平,正被工业界和气象机构部署到运营中。
然而,许多应用不仅需要准确的预报,还需要概率预报——即预测概率能真实反映事件发生的可能性。概率预报的核心要求是校准性(calibration):当模型以概率 \(p\) 预测某事件时,该事件实际发生的频率应恰好为 \(p\)。
现有的标准校准度量如期望校准误差(ECE)存在明显缺陷:
- ECE 仅关注最高概率预测类别及其置信度,在多类别有序问题中会掩盖跨阈值的校准偏差
- 对于降水预报这种有序分类问题(如需要同时了解超过1mm和超过10mm的概率),ECE 无法捕捉全部降水区间的校准质量
- 静态校准误差(SCE)虽然扩展到多类别,但仍然假设类别之间是独立的,不适用于有序降水量
此外,与计算机视觉任务不同,天气预报还有一个独特维度——前置时间(lead time),这进一步增加了校准的复杂性。
方法详解¶
整体框架¶
本文工作包含两个核心贡献:(1)提出适用于降水预报的新校准度量ETCE;(2)将计算机视觉中的校准后处理技术扩展并适配到气象预报领域。整体流程为:使用固定的基础概率模型生成logit输出,然后通过轻量级校准器对输出进行后处理以改善校准性。
关键设计¶
1. 期望阈值校准误差(ETCE)
ETCE 的核心思想是:对于降水预报,应该在每个降水阈值 \(R_k\) 上分别评估校准性。给定 \(K\) 个降水阈值,首先计算超过每个阈值的累积概率 \(\hat{P}(r > R_k)\),然后对每个阈值将预测按置信度分入 \(B\) 个等间距区间,最后计算:
其中 \(w_b\) 为区间权重。由于降水是稀有事件,作者采用均匀权重 \(w_b = 1/B\) 而非按样本数加权,以避免干旱事件在度量中占据主导地位。实验中选择 \(B=20\)。
2. 温度缩放(Temperature Scaling, TS)
经典方法:学习单一参数 \(T \in \mathbb{R}^+\),通过 \(\hat{p} = \sigma_{\text{softmax}}(z/T)\) 缩放预测概率。在分割任务中,一个温度值统一应用于所有像素和所有样本。
3. 局部温度缩放(Local Temperature Scaling, LTS)
为每个像素 \(x\) 学习不同的温度值,使用小型层级CNN从logit向量映射到温度值。作者的改进:仅使用logit作为输入,并通过FiLM(Feature-wise Linear Modulation)方法引入前置时间条件,对中间特征图施加基于前置时间信息的仿射变换。
4. 选择性缩放(Selective Scaling, SS)
基于关键观察:神经网络校准偏差的主要原因是对错误预测的过度自信。SS 的做法是: - 首先训练一个分类器(基于logit)来检测基础模型的错误预测 - 仅对检测到的错误预测应用温度缩放(\(T > 1\)),降低其过度自信 - 对正确预测保持原始概率不变
作者使用FiLM机制将前置时间编码融入3层MLP分类器,同时探索了基于Segformer的更大注意力架构。
基础模型与数据¶
基础模型:固定不变的概率模型,以前置时间为条件进行独立预测。架构包括: - 空间编码器:卷积层序列,将输入从 \(512 \times 512\) 降采样到 \(64 \times 64\)(512通道) - 注意力模块:4个轴向注意力层(512通道) - 分类头:输出12个通道(对应12个降水量区间) - 总参数量:21M
数据:输入包括7步MRMS雷达图像、2步16通道GOES卫星数据、1步HRRR数值天气模型降水预测,以及地形、经纬度、时间信息和前置时间。目标是MRMS降水量离散化为12个区间(0.2至10+ mm/h)。
校准训练数据:与基础模型训练数据在时间上不重叠: - 110K样本用于训练错误预测分类器 - 1K样本用于优化温度参数 - 47K样本用于评估
实验关键数据¶
主实验¶
| 校准方法 | 参数量 | F1分数 | 平均ETCE | ΔETCE (%) |
|---|---|---|---|---|
| 未校准基线 | - | 0.565 | 0.079 | - |
| 温度缩放(TS) | 1 | 0.565 | 0.080 | -1.0 |
| LTS(无前置时间条件) | 2,107 | 0.573 | 0.096 | -21.3 |
| LTS(含前置时间条件) | 2,143 | 0.564 | 0.082 | -3.6 |
| 选择性缩放 w/ MLP | 3,254 | 0.564 | 0.060 | +23.5 |
| 选择性缩放 w/ Segformer B0 | 3,728,550 | 0.567 | 0.062 | +21.6 |
消融实验:不同Segformer分类器规模对比¶
| 分类器架构 | 相对ETCE改善 | 计算复杂度 |
|---|---|---|
| MLP (3层) | 23.5% | 极低 (3,254参数) |
| Segformer-B0 | 21.6% | 高 (3.7M参数) |
| Segformer-B1 | ~24% | 更高 |
| Segformer-B2 | ~24.8% | 极高 |
更大规模的Segformer分类器仅带来约1.3%的ETCE改善,但计算成本大幅增加,MLP是最具性价比的选择。
关键发现¶
-
选择性缩放效果最佳:MLP版本的选择性缩放将ETCE降低23.5%,同时保持F1分数不变(0.564 vs 基线0.565),说明校准改善不以预测质量为代价。
-
温度缩放无效:单一温度参数的方法在降水预报中不仅无效,反而使ETCE恶化1%。这与计算机视觉中的某些正面结论相矛盾,说明预报问题的特殊性。
-
LTS需要前置时间条件:不加前置时间条件的LTS严重恶化校准(-21.3%),加入FiLM前置时间编码后损害减轻(-3.6%),但仍不如基线。
-
前置时间影响规律:在短前置时间(≤150分钟)内,MLP和Segformer-B0表现相当;在长前置时间,MLP表现更优,说明简单模型在长期预测中泛化更好。
-
校准主要改善过度自信:通过miscalibration图分析可知,未校准模型在各前置时间和降水阈值上普遍存在过度自信问题,选择性缩放有效减少了高置信度区间的校准偏差。
亮点与洞察¶
- ETCE度量的设计合理性:通过阈值化处理保留了降水量的有序性质,使用均匀区间权重避免了稀有事件被干旱主导的问题
- 选择性缩放思路巧妙:"只修正错误预测的置信度"这一策略避免了对已校准良好的正确预测产生干扰
- FiLM条件机制的引入:将前置时间信息融入校准器是领域适配的关键创新,对所有方法都有正面作用
- 极其轻量:最佳方案仅需3,254个额外参数,实际部署成本几乎可以忽略
局限与展望¶
- 实验仅在北美地区的MRMS数据上验证,地理泛化性未知
- 校准器使用的是logit空间信息,未利用原始输入(如卫星图像)的空间上下文
- ETCE使用均匀权重可能在某些应用场景中不是最优选择(如更关注强降水阈值)
- 未探索将选择性缩放与LTS结合的可能性
- 未来可考虑引入空间和/或时间信息作为额外条件
相关工作与启发¶
- 从计算机视觉校准方法到气象预报的迁移值得关注,类似的跨领域迁移可能在其他科学预测任务中也有效
- FiLM机制作为通用的条件注入方式,在需要额外上下文(如时间、位置)的校准任务中有广泛适用性
- 选择性缩放的"只修正错误"思路可以推广到其他概率预测任务
评分¶
- 新颖性: 3/5 — ETCE度量和FiLM条件化校准是合理的增量创新
- 技术深度: 3/5 — 方法相对简洁,但实验设计严谨
- 实验充分性: 3.5/5 — 消融实验完整,但仅单一数据集
- 实用价值: 4/5 — 方法极轻量,可直接部署到实际天气预报系统
- 写作质量: 4/5 — 结构清晰,图表直观
相关论文¶
- [NeurIPS 2025] Learning with Calibration: Exploring Test-Time Computing of Spatio-Temporal Forecasting
- [NeurIPS 2025] Time-O1: Time-Series Forecasting Needs Transformed Label Alignment
- [NeurIPS 2025] Selective Learning for Deep Time Series Forecasting
- [NeurIPS 2025] Connecting the Dots: 面向电离层预测的机器学习数据集
- [NeurIPS 2025] PlanU: Large Language Model Reasoning through Planning under Uncertainty