Power Ensemble Aggregation for Improved Extreme Event AI Prediction¶
会议: NeurIPS 2025
arXiv: 2511.11170
代码: 暂无
领域: 人体理解
关键词: 极端事件预测, 集成聚合, 幂均值, 热浪分类, 气候预测
一句话总结¶
提出基于幂均值的自适应集成聚合方法,通过对生成式天气预测模型的集成成员得分施加非线性聚合(幂指数\(p>1\)),显著提升极端高温事件的分类性能,尤其在高分位数阈值下效果更佳。
研究背景与动机¶
深度学习天气预报模型(如GraphCast、PanguWeather)在常规天气预测上已超越物理模型,但极端事件预测仍是短板。其根本原因在于:
稀有性:极端事件定义上就是小概率事件,训练数据中占比极低,模型倾向于预测均值附近的结果
均值聚合的内在偏差:当使用集成模型时,标准做法是对成员预测取均值。但均值操作天然地"压制"极端值——即使有少数成员正确预测了极端事件,也会被多数保守预测稀释
缺少自适应机制:不同强度的极端事件需要不同程度的"偏向极端"策略,但传统聚合方法(均值或最大值)缺乏灵活性
核心动机:在均值(过保守)和最大值(过激进)之间,是否存在一个最优的中间策略? 幂均值提供了一个连续可调的折衷方案。
方法详解¶
整体框架¶
系统分为三个部分:1) 基于U-Net的确定性天气预测模型,使用立方球面网格避免极点奇异性;2) Perlin噪声注入使模型变为生成式,输出\(n=50\)个集成成员;3) 幂均值聚合将集成成员的得分转换为极端事件分类概率。
关键设计¶
- 极端事件定义与分类框架
使用局部气候学定义极端事件:对每个位置和季节计算地表气温的局部气候均值和标准差,将温度转换为局部异常值 \(x\)。阈值 \(q\) 定义为:温度异常 \(x\) 满足 \(\Phi(x) \geq q\) 时视为极端事件,其中 \(\Phi\) 是标准正态CDF。
这是关键的设计选择——使用局部定义而非全局阈值,避免了只能捕捉类似撒哈拉沙漠等常年高温地区的限制。
- 幂均值聚合
对 \(n\) 个集成成员的局部异常预测 \(\{\hat{x}_i\}_{i=1}^n\),先计算每个成员的得分 \(\hat{s}_i = \Phi(\hat{x}_i)\),然后进行幂均值聚合:
$\(\hat{s} = \left(\frac{1}{n}\sum_{i=1}^n \hat{s}_i^p\right)^{1/p}\)$
当 \(p=1\) 时退化为算术均值;\(p \to \infty\) 时趋近最大值。参数 \(p \geq 1\) 控制对极端预测成员的"权重倾斜"程度。
注意幂均值应用在得分 \(\hat{s}_i\)(正数)上而非异常值 \(\hat{x}_i\)(可负)上,因为幂运算要求正数输入。
- 生成式模型构造
在确定性U-Net基线输入中注入Perlin噪声以创建集成多样性。Perlin噪声相比白噪声的优势在于其空间连贯性——天气场的扰动应该在空间上平滑而非像素级独立。
具体改进:在3D立方体 \([0,1]^3\) 上生成Perlin噪声,取对应地球表面的2D切片以保证全球连续性;使用对数正态分布随机化梯度幅度以更好捕获极端值(默认Perlin噪声被限制在\([-1,1]\));通过卷积层学习的振幅调制器将不同频率的噪声组合为分形噪声。
损失函数 / 训练策略¶
使用连续排序概率评分(CRPS)作为训练损失。训练数据为1990-2010年ERA5再分析资料,重采样至1.5°空间分辨率和日时间分辨率。使用立方球面网格(6×48×48)避免极点奇异性。模型在单个16GB GPU上训练数小时。
实验关键数据¶
主实验——不同分位数的AUC对比¶
| 分位数q | 预报时效 | 均值聚合AUC | 幂均值AUC | \(p_{opt}\) | 相对提升RI |
|---|---|---|---|---|---|
| 0.80 | 7天 | 基线 | 略优 | ~2 | ~0.5% |
| 0.90 | 7天 | 基线 | 较优 | ~5 | ~1.0% |
| 0.98 | 7天 | 基线 | 显著优 | ~20 | ~2.5% |
| 0.80 | 12天 | 基线 | 优 | ~2 | ~1% |
| 0.98 | 12天 | 基线 | 大幅优 | ~20 | ~4% |
与GraphCast的对比(测试集2018年)¶
| 方法 | q=0.80 | q=0.90 | q=0.98 |
|---|---|---|---|
| 持续性模型 | 低 | 低 | 低 |
| GraphCast (确定性) | 良好 | 良好 | 有限 |
| 集成均值 | 良好 | 良好 | 良好 |
| 集成幂均值 | 最佳 | 最佳 | 最佳 |
在高分位数(q=0.98)和长预报时效场景下,基于简单生成模型的幂均值聚合甚至超越了确定性GraphCast。
关键发现¶
- 最优幂指数\(p_{opt}\)与分位数\(q\)呈指数关系:\(\log(p_{opt}) = f(q)\) 几乎完美线性,提供了跨分位数的简单预测规则
- 改进随极端程度增加:相对提升RI随着分位数阈值的提高而增大,正好说明方法对越极端的事件越有效
- 改进随预报时效增加:长期预报的不确定性更大,幂均值对极端成员的偏向效果更明显
- 在验证集上优化的\(p_{opt}\)可直接迁移到不同预报时效,说明鲁棒性良好
亮点与洞察¶
- 方法的优雅简洁:仅引入一个超参数\(p\),就实现了从均值到最大值的连续可调聚合策略
- \(p_{opt}\)的指数缩放规律:为不同极端阈值提供了即用型的\(p\)选择指南
- 模型无关性:幂均值聚合可以应用于任何生成式预测模型,不需要修改模型架构
- "以简胜繁"的示范:简单生成模型+幂均值聚合在极端事件上超越了复杂的GraphCast
局限与展望¶
- 极端事件定义简化:仅使用单变量(地表气温)和静态气候学
- 未考虑气候变化:基于固定气候态定义的异常可能在非平稳气候下失效
- AUC指标的局限:未结合社会经济损害的应用导向评估
- 仅测试了自建简单模型:是否对更强大的基线模型(如GenCast)也有效尚未验证
- 未包含多变量极端事件(如复合型极端天气)
相关工作与启发¶
- GraphCast: DeepMind确定性天气预报模型,本文对比基线
- WeatherBench2: 通用天气预报评测基准和数据源
- Perlin噪声: 用于计算机图形学的连续噪声,被巧妙地用于气象集成扰动
评分¶
- 新颖性: ⭐⭐⭐☆☆ — 幂均值已有前人研究,创新在于气候领域的系统验证
- 实验充分度: ⭐⭐⭐⭐☆ — 多分位数、多时效对比充分,但缺少更强基线模型验证
- 写作质量: ⭐⭐⭐⭐☆ — 短小精悍,重点突出
- 价值: ⭐⭐⭐⭐☆ — 方法简单通用,对极端事件预测有实际意义
相关论文¶
- [NeurIPS 2025] TensorRL-QAS: Reinforcement Learning with Tensor Networks for Improved Quantum Architecture Search
- [CVPR 2025] Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios
- [ICML 2025] AAAR-1.0: Assessing AI's Potential to Assist Research
- [CVPR 2025] Conformal Prediction for Zero-Shot Models
- [CVPR 2025] Two is Better than One: Efficient Ensemble Defense for Robust and Compact Models