FuXi-RTM: A Physics-Guided Prediction Framework with Radiative Transfer Modeling¶

会议: ICCV 2025
arXiv: 2503.19940
代码: 无
领域: 气象预测 / Weather Forecasting
关键词: 物理引导深度学习, 辐射传输建模, 天气预报, 时空序列预测, 物理一致性

一句话总结¶

提出 FuXi-RTM，首个将深度学习辐射传输模型 (DLRTM) 作为可微物理正则化器集成到天气预报框架中的混合物理引导体系，在 88.51% 的变量-预报时效组合上超越无约束基线。

研究背景与动机¶

当前深度学习天气预报模型（如 FuXi、Pangu-Weather 等）虽然在预报精度上已超越 ECMWF 的 HRES，但存在一个根本缺陷：缺乏显式物理约束，可能产生非物理输出（如负湿度），这在辐射过程建模方面尤为突出。

辐射传输是地球天气和气候系统的主要能量驱动力，调控温度梯度、大气压力模式和风环流。传统 NWP 模型通过参数化方案模拟辐射传输，但计算成本极高。

本文的关键洞察：可以用预训练的深度学习辐射传输替代模型 (DLRTM) 作为冻结的可微正则化器，在训练时为预报模型提供物理约束信号，无需额外训练即可将辐射传输能力嵌入天气预报框架。

方法详解¶

整体框架¶

FuXi-RTM 采用 encoder-processor-decoder 范式，由两个核心组件组成： - FuXi-base：可训练的主预报模型（1.1B 参数，30 层 Swin Transformer V2），输入连续两帧大气状态预测下一时步 - DLRTM：预训练且冻结的深度学习辐射传输替代模型，基于 Bi-LSTM 架构，处理大气柱数据输出辐射通量

训练时，FuXi-base 的输出经 DLRTM 生成辐射通量，与 RRTMG 传统模型计算的真值对比产生物理约束损失。

关键设计¶

DLRTM 辐射传输替代模型:
- 架构：3 层 Bi-LSTM（正向96维 + 反向128维），逐列（grid point）独立处理
- 输入：$\mathbf{Y}_t \in \mathbb{R}^{1 \times 71 \times H \times W}$，包含 13 个气压层 × 11 个变量（5 个高空变量 + 6 个单层变量）
- 输出：4 种辐射通量（SWUFLX, SWDFLX, LWUFLX, LWDFLX）× 13 层
- Ghost Level 动态掩码：处理地形高度差异，当 $P_{level} > P_{surface}$ 时掩码为 0，排除非物理层
- 设计动机：DLRTM 独立处理每个大气柱，天然支持全球并行计算，将 RRTMG 的 22 分钟（8 CPU）降至 ~3 秒（1 H100 GPU）
Sunlit Region-Centered (SRC) 采样策略:
- 问题：全球随机采样会包含大量无阳光区域（对短波辐射无意义）
- 方案：动态选择一个受阳光照射的位置，取其周围 250×250 网格作为损失计算区域
- 设计动机：集中在太阳辐射交互最显著的区域计算梯度，保留局部上下文关系，减少无关背景信号干扰
物理引导训练策略:
- FuXi-RTM 训练时 DLRTM 参数冻结，仅更新 FuXi-base
- 聚焦地表短波上行/下行通量（SWUFLX/SWDFLX）的约束
- 通过反向传播，地表辐射约束隐式传递垂直大气交互信息
- 设计动机：地表辐射约束本身已包含垂直大气柱信息，多层显式监督反而会造成信息冗余

损失函数 / 训练策略¶

总损失：$L_{total} = L_{forecast} + L_{reg}$

预报损失：纬度加权 Charbonnier L1 损失 $$L_{forecast} = \frac{1}{C \times H \times W} \sum_c \sum_i \sum_j \alpha_i \sqrt{(\hat{X}_{c,i,j} - X_{c,i,j})^2 + \epsilon^2}$$ $\alpha_i = H \times \frac{\cos\Phi_i}{\sum_i \cos\Phi_i}$ 为纬度权重因子
物理正则化损失：在 SRC 采样区域计算 $$L_{reg} = \frac{1}{R' \times H' \times W'} \sum_r \sum_i \sum_j \alpha_i (\lambda \sqrt{(\hat{Y}^{DLRTM} - Y^{DLRTM})^2 + \epsilon^2})$$ $\lambda = 10^{-3}$ 平衡物理约束与直接预报
训练配置：4×H100 GPU，60,000 iterations，AdamW（$\beta_1=0.9, \beta_2=0.95$），lr=2.5e-4

实验关键数据¶

主实验¶

在 2018-2022 年 5 年测试集上评估（每日 00/12 UTC 初始化，6 小时间隔至 10 天）：

指标	FuXi-RTM vs FuXi-base
总体优势比例	3320 组合中 88.51% FuXi-RTM 更优
云覆盖 (CC) 优势比例	95.38%
比湿 (Q) 优势比例	93.46%
CLWC (高层) 改进	nRMSE 差异 > 2%
地表反照率 (FAL)	全 10 天预报 nRMSE 改进 > 7%
辐射通量	100% 时效组合 FuXi-RTM 更优
ISSRD 改进	接近 100%
DLRTM 加速比	22min (8 CPU) → 3s (1 GPU)

消融实验¶

模型变体	Q50	Q500	CLWC500	CC150	TCC	TTR	TP	FAL
FuXi-RTM-Random	0.1857	0.7459	0.0226	0.1725	0.3193	159.25	2.4327	0.02515
FuXi-RTM-13level	0.1697	0.7409	0.0226	0.1732	0.3184	159.23	2.4418	0.02313
FuXi-RTM-13levelSW	0.1762	0.7409	0.0224	0.1714	0.3183	158.42	2.4200	0.02335
FuXi-RTM-GSW	0.1668	0.7567	0.0226	0.1735	0.3207	160.95	2.4564	0.02263
FuXi-RTM-ISSRD	0.1741	0.7441	0.0226	0.1719	0.3191	159.14	2.4299	0.02379
FuXi-RTM	0.1546	0.7388	0.0223	0.1705	0.3179	158.13	2.4092	0.02300
FuXi-base	0.1735	0.7453	0.0226	0.1720	0.3196	159.14	2.4127	0.02553

关键发现¶

SRC 优于随机采样：在阳光区域集中计算梯度显著优于全球随机采样，空间连贯的梯度计算增强了特征学习
地表约束优于全层约束：优化所有气压层（13level）反而性能下降，地表辐射约束通过反向传播隐式捕捉垂直交互
约束基础物理量优于导出量：直接约束 SW 通量优于约束 ISSRD 或 GSW 等导出指标
能量守恒验证：10 天以上预报中 FuXi-RTM 展现更好的全球大气总能量守恒特性

亮点与洞察¶

首个显式集成物理过程建模的 DL 天气预报框架：不同于之前用 ODE 求解器处理原始方程的方法
冻结 DLRTM 作为可微正则化器：无需额外训练即可扩展辐射传输能力，计算效率极高
地表约束的信息完备性：一个看似简化的设计（仅约束地表 SW 通量）实际包含了完整的物理信息
与视频生成的类比：天气预报本质上是多通道时空序列预测，但要求跨数十个物理关联变量的一致性

局限与展望¶

当前排除了风分量 (u, v)，扩展后可能进一步提升性能但计算需求增加
仅集成了辐射传输过程，未涵盖对流、行星边界层、云微物理等其他重要物理过程
某些变量（如 1000hPa Q）在短期预报中初期性能低于基线，需要 1.25 天才能超越
SRC 采样策略仅适用于短波，长波辐射处理可能需要不同策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将可微物理过程建模集成到 DL 天气预报中，开创性工作
实验充分度: ⭐⭐⭐⭐⭐ 5 年测试集、3320 组合评估、详尽消融和物理守恒验证
写作质量: ⭐⭐⭐⭐ 结构清晰，物理背景和技术细节解释充分
价值: ⭐⭐⭐⭐⭐ 为下一代物理一致的天气预报系统铺平道路