Towards Universal Neural Operators through Multiphysics Pretraining¶

会议: NeurIPS 2025
arXiv: 2511.10829
代码: 待确认
领域: 科学计算 / 神经算子
关键词: neural operator, transfer learning, PDE, multiphysics, foundation model

一句话总结¶

提出基于 adapter 的多物理场预训练框架，通过将 lifting/projection 层作为问题特定适配器、冻结共享的核积分算子层，实现跨 PDE 问题的迁移学习，显著降低微调成本并提升泛化能力。

研究背景与动机¶

核心问题： 神经算子（Neural Operator, NO）在数据驱动的物理仿真中已广泛使用，但训练代价高昂，且每个新 PDE 问题通常需要从零训练一个独立模型。如何构建一个通用的神经算子基础模型，使其能够在多种 PDE 问题上预训练后高效迁移到新问题？

现有方案的不足：

PINN（物理信息神经网络）： 需要显式的 PDE 公式，且精度仅在训练网格节点上有保证，泛化能力有限

传统神经算子（FNO/DeepONet）： 虽然能近似函数空间映射，具有离散化不变性，但每个问题独立训练，无法复用已学到的物理知识

已有的预训练方法： 多数局限于特定类型方程（如稳态方程），或仅在同类 PDE 内做参数外推，缺乏跨物理场景的通用迁移能力

CoDA-NO： 虽引入了 codomain attention 做多物理迁移，但其预训练和微调流程仍不够灵活

本文动机： 受大语言模型中 adapter 微调范式的启发，将神经算子的 lifting 和 projection 层视为轻量级适配器，核积分算子层（Fourier 层/Transformer 层）视为共享的"主干"。预训练阶段在多个不同物理问题上联合训练全部参数，微调阶段仅更新新问题的 adapter，从而实现：(a) 跨 PDE 知识迁移；(b) 大幅降低微调计算量；(c) 支持不同输入函数集的 PDE 问题。

方法详解¶

整体框架¶

本文的核心架构遵循标准神经算子的 Lifting → Operator Blocks → Projection 三阶段设计，但在此基础上引入了 adapter-based 多物理场预训练/微调 策略：

Lifting 层 \(\mathcal{L}\)： 将输入函数 \(\mathbf{a} = \{a_1, \dots, a_{n\_in}\}\) 映射到高维隐空间，参数为 \(\theta_\mathcal{L} = \{A_\mathcal{L}, b_\mathcal{L}\}\)
核积分算子层 \(\mathcal{F}\)： 包含 \(n_{\text{layers}}\) 个叠加的积分核算子块，每层计算 \(\mathcal{F}_t(x) = \sigma\left(A_t v_t(x) + \int_{D_i} \kappa_t(x,y) v_t(y) dy + b_t(x)\right)\)
Projection 层 \(\mathcal{P}\)： 将最后一层隐表示投影回输出函数空间

关键思想： 不同 PDE 问题拥有各自独立的 lifting 和 projection 层（adapter），而核积分算子层在所有问题间共享。预训练时联合优化全部参数 \((\theta_{\mathcal{P}_1}, \dots, \theta_{\mathcal{P}_N}, \theta_\mathcal{F}, \theta_{\mathcal{L}_1}, \dots, \theta_{\mathcal{L}_N})\)；微调时冻结 \(\theta_\mathcal{F}\)，仅训练新问题的 \((\theta_{\mathcal{P}_{ft}}, \theta_{\mathcal{L}_{ft}})\)。

关键设计：两类增强架构¶

为提升神经算子在迁移学习中的泛化能力，文章探索了两种结构改进：

1. Mamba-SSM 增强的 FNO（MambaFNO）：

在 lifting 层之后插入 Mamba 状态空间模块 \(\mathcal{M}_\phi\)，对提升后的特征做因果卷积：

\[\widetilde{v}_0(x,t) = (\mathcal{M}_\phi v_0)(x,t) = \sum_{\tau \leq t} K_\tau v_0(x, t-\tau)\]

其中 \(K_\tau\) 为可学习卷积核。Mamba 模块的作用是隐空间预条件化：在进入 Fourier 层前，将 embedding 与主导动力学模式（输运、扩散、振荡）对齐，降低输入信号的频谱秩和变异性，从而使后续 \(\mathcal{F}_t \circ \mathcal{M}_\phi\) 的训练更稳定，预训练表示在微调时更高效迁移。

2. Perceiver IO 增强的神经算子：

引入 Perceiver IO 的对称交叉注意力机制： - 编码阶段： 输入经 FNO 映射得到 \(K_1 = \text{FNO}_{K_1}(X)\), \(V_1 = \text{FNO}_{V_1}(X)\)，与可学习的潜变量 \(Q_1 = L\) 做交叉注意力 - 处理阶段： 潜表示间的自注意力 - 解码阶段： 用输入的查询与变换后的潜表示做交叉注意力输出

Perceiver 的优势在于用更少的潜特征数组编码信息，操作更抽象的特征表示，参数量可控。

此外，文章还对比了 Codomain Attention（CoDA-NO） 和 Swin-v2 Transformer 两种基线，其中 codomain attention 的相似度计算在特征维度（而非样本维度）上进行点积，更适合神经算子场景。

损失函数¶

采用范围归一化平均绝对误差（NMAE）作为训练和评估指标：

\[\text{NMAE}(\theta) = \frac{1}{|\mathcal{D}^{\text{test}}|} \sum_{(\mathbf{a},u) \in \mathcal{D}^{\text{test}}} \frac{\|\mathcal{G}_\theta(\mathbf{a}) - u\|_{1,G}}{\max_G u - \min_G u + \varepsilon}\]

该指标通过输出值域归一化消除了不同物理量级的影响，适合跨物理场景的公平比较。

实验关键数据¶

实验一：参数外推场景（Out-of-Sample Parameter Values）¶

在 Burgers 方程、Gray-Scott 反应扩散和 Navier-Stokes 不可压流上，预训练后微调 vs 从零训练的对比：

模型	MSE	NMAE (%)	平均 epoch 时间(s)	参数量
MambaFNO (预训练)	1.009×10⁻⁷	0.0120	21.91	~10⁷
MambaFNO (从零)	1.193×10⁻⁷	0.0213	40.14	~10⁷
Perceiver (预训练)	1.425×10⁻⁷	0.0169	3.21	~10⁸
Perceiver (从零)	1.981×10⁻⁷	0.0219	204.73	~10⁸
FNO (从零)	1.774×10⁻⁷	0.0204	7.44	~10⁶
Swin-v2 (预训练+从零)	4.391×10⁻⁸	0.0092	101.3	~10⁹
CoDA-NO (预训练)	2.881×10⁻⁷	0.0343	62.91	~10⁸
CoDA-NO (从零)	4.912×10⁻⁷	0.0712	63.29	~10⁸

关键发现： 预训练方法在所有架构上均优于从零训练；Perceiver 预训练的微调加速最为显著（从 205s 降至 3.2s/epoch，约 64 倍加速）；MambaFNO 在预训练后 NMAE 降低约 44%。

实验二：输入扩展 + 跨物理场景迁移¶

从对流/Burgers 方程迁移到反应扩散（PDEBench 数据集），以及热方程扩展为对流-扩散方程：

模型	MSE	NMAE (%)	平均 epoch 时间(s)
MambaFNO (预训练)	3.91×10⁻⁶	0.0041	131.2
MambaFNO (从零)	4.291×10⁻⁶	0.0054	261.1
Perceiver (预训练)	4.107×10⁻⁶	0.0051	20.4
Perceiver (从零)	6.315×10⁻⁶	0.0074	804.0
FNO (从零)	7.286×10⁻⁶	0.0121	41.3
CoDA-NO (预训练)	1.043×10⁻⁵	0.013	185.1
CoDA-NO (从零)	1.239×10⁻⁵	0.018	181.9

关键发现： 跨物理场景更具挑战性，但预训练仍持续有效；Perceiver 预训练微调加速约 39 倍（804s→20.4s），同时 NMAE 降低 31%；MambaFNO 在精度和速度上均有提升，且相比从头训练 epoch 快约 2 倍。

亮点与洞察¶

Adapter 思路的简洁性： 将 lifting/projection 类比为 LLM 中的 adapter，核积分层类比为预训练 backbone，这一类比自然且有效，设计简洁、实现成本低
Mamba 模块作为"隐空间预条件化器"： 通过因果卷积将 embedding 与通用动力学模式对齐，降低频谱变异性，这个设计思路值得在其他 PDE 迁移场景中借鉴
Perceiver 的极端加速效果： 微调阶段 39-64 倍的加速说明潜变量表示能有效压缩信息，使得仅更新少量 adapter 参数即可适配新问题
纯数据驱动： 刻意回避物理信息（PINN），专注评估神经算子从数据中学习通用动力学的能力，实验设计清晰

局限性¶

问题维度限制： 所有实验均为相同空间维度的 PDE，未验证跨维度迁移的可行性（如 1D→2D 或 2D→3D）
数据集规模和多样性： 实验涉及的物理场景仍较有限（对流、Burgers、反应扩散、NS），未测试更复杂的多物理耦合问题
缺乏与最新基础模型的比较： 未与 POSEIDON 等近期工作做直接对比，难以判断在真实大规模场景中的竞争力
网格依赖性未深入探讨： 虽然提到"mesh-agnostic"，但实际实验中不同 PDE 是否使用了统一分辨率未说明
Swin-v2 的参数量为 ~10⁹： 与其他方法不在同一量级，对比的公平性存疑

评分¶

维度	评分
新颖性	⭐⭐⭐
技术深度	⭐⭐⭐
实验充分性	⭐⭐⭐
写作质量	⭐⭐⭐
综合评分	⭐⭐⭐

总评： 工作思路清晰、实验设计合理，adapter-based 预训练微调范式在 PDE 迁移学习中验证有效。但整体贡献更偏"工程验证"而非"方法创新"——核心思想（adapter 解耦 + 共享 backbone）是 NLP 领域已成熟的范式在科学计算中的直接应用，新颖性有限。实验规模偏小，距离论文标题中"Universal"的愿景还有一定距离。