Rapid Training of Hamiltonian Graph Networks using Random Features¶

会议: ICLR 2026
arXiv: 2506.06558
代码: GitLab
领域: 物理模拟 / 图神经网络
关键词: Hamiltonian Graph Networks, Random Features, N-body Simulation, Zero-shot Generalization, Gradient-free Training

一句话总结¶

本文提出 RF-HGN，通过随机特征采样（ELM/SWIM）构建 dense 层参数并求解线性最小二乘问题来训练哈密顿图网络，完全绕过梯度下降迭代优化，在 N 体物理系统上实现 150-600 倍加速，同时保持可比精度和强零样本泛化能力。

研究背景与动机¶

领域现状：数据驱动建模物理系统是一个核心挑战，结合物理先验（如哈密顿力学）与图神经网络（GNN）是当前主流范式。哈密顿图网络（HGN）通过图结构编码 N 体系统的拓扑关系，配合哈密顿方程约束，能产生精确、排列不变的动力学预测。

现有痛点：训练图网络极其缓慢。GNN 的反向传播涉及不规则内存访问和负载不均衡，且物理模型对超参数敏感。当模型架构中包含数值积分器（如 Störmer-Verlet）时，训练难度进一步加剧。15 种常用优化器（Adam、LBFGS 等）在 3D lattice 系统上需要 23-96 秒训练，远不能满足大规模系统快速原型的需求。

核心矛盾：GNN 的物理归纳偏置（图结构 + 哈密顿约束）虽然提升了模型质量，但这些结构约束使得基于梯度的迭代优化变得更加困难和耗时。精度与训练效率之间存在根本性的张力。

本文目标 (1) 如何在不牺牲精度的前提下大幅加速 HGN 训练？(2) 如何在图网络中融入随机特征方法同时保持物理不变性？(3) 训练后的模型能否零样本泛化到远超训练规模的系统？

切入角度：随机特征（Random Features）方法近年在近似物理系统方面展现出潜力，但尚未应用于图网络。核心观察是 HGN 的架构可以分为两部分——非线性 dense 层和线性输出层。如果 dense 层参数可以通过随机采样确定，那么训练就简化为一个凸的线性最小二乘问题。

核心 idea：用随机特征采样构建 HGN 的 dense 层参数，将非凸网络训练转化为凸线性系统求解，实现无梯度下降的超快训练。

方法详解¶

整体框架¶

RF-HGN 的 pipeline 分为三个阶段：(1) 不变性编码：将 N 体系统的位置和动量转换为平移、旋转不变的坐标表示；(2) 图网络前向：通过节点/边编码、消息传递和全局池化得到图级表示；(3) 随机特征训练：dense 层参数由随机采样确定（ELM 或 SWIM），线性输出层通过最小二乘法求解。输入为相空间轨迹 \((q, p) \in \mathbb{R}^{2d \cdot N}\)，输出为标量哈密顿量 \(\hat{\mathcal{H}}\)，推理时通过 Störmer-Verlet 积分器模拟动力学。

关键设计¶

物理不变性编码:
- 功能：将任意参考系下的坐标转换为平移/旋转不变表示，确保整个系统平移或旋转时哈密顿量不变
- 核心思路：平移不变性通过减去质心实现 \(q_i \leftarrow q_i - \frac{1}{N}\sum_{i=1}^{N}q_i\)；旋转不变性通过构建局部正交基实现——选择最接近质心的节点确定第一基向量 \(e_1 = q_1/\|q_1\|\)，通过旋转（2D）或 Gram-Schmidt 正交化（高维）构建完整正交矩阵 \(\mathcal{B}\)，将坐标投影到此局部坐标系 \(\bar{q}_i = \mathcal{B}^T q_i\)；排列不变性由图结构和消息传递的求和聚合自然保证
- 设计动机：物理系统的能量不应因观察者的参考系选择而改变，显式编码不变性减少了模型需要学习的冗余信息，降低数据需求
随机特征参数构建（ELM 与 SWIM）:
- 功能：无需梯度下降即可确定所有 dense 层（节点编码器 \(\phi_V\)、边编码器 \(\phi_E\)、消息构建器 \(\phi_M\)）的权重和偏置
- 核心思路：ELM 方法（数据无关）从标准正态分布采样权重 \(W\)，从均匀分布采样偏置 \(b\)；SWIM 方法（数据驱动）从输入数据中随机选取两个点 \((x^{(1)}, x^{(2)})\)，构造 \(w_i = s_1(x^{(2)}_i - x^{(1)}_i)\|x^{(2)}_i - x^{(1)}_i\|^{-2}\)，\(b_i = -\langle w_i, x^{(1)}_i \rangle - s_2\)，其中 \((s_1, s_2)\) 为激活函数相关常数。SWIM 利用数据分布信息，使得超平面精确"放置"在数据需要区分的区域
- 设计动机：将非凸优化问题转化为仅需求解一个线性系统，完全避免了梯度消失/爆炸和非凸优化陷阱
线性层最小二乘求解:
- 功能：在 dense 层参数固定后，唯一需要优化的线性输出层通过求解凸优化问题获得最优解
- 核心思路：构建线性系统 \(Z \cdot \theta_L = u\)，其中 \(Z\) 包含全局池化层输出的梯度 \(\nabla\Phi(y)\) 和哈密顿方程约束，\(u\) 包含时间导数信息 \(J^{-1}\dot{y}\)。该系统通过 \(l^2\) 正则化的最小二乘法求解，时间复杂度为 \(\mathcal{O}(K d_L^2)\)，与数据量 \(M\)、粒子数 \(N\)、空间维度 \(d\) 均线性相关
- 设计动机：凸优化保证全局最优解，且训练时间随问题规模线性增长，使大系统训练成为可能

损失函数 / 训练策略¶

训练目标是最小化哈密顿方程残差的 \(l^2\) 范数：\(\min_{\theta_L}\|Z\theta_L - u\|^2\)。训练数据为相空间轨迹及其时间导数（或纯时间序列数据）。仅需一个已知的哈密顿量真值 \(\mathcal{H}(y_0)\) 来固定积分常数。训练过程无需超参数调优（学习率、epoch 数等），仅有 dense 层宽度和正则化常数两个参数。

实验关键数据¶

主实验：优化器对比¶

优化器	Test MSE	训练时间 (s)	加速比
RF-HGN (SWIM)	8.95e-5	0.16	—
LBFGS	3.56e-5	23.85	149×
Adam	2.90e-3	91.64	572×
AdamW	2.91e-3	92.15	576×
Adafactor	2.41e-3	96.36	602×
SGD	2.36e-2	91.75	573×

RF-HGN 在 3D lattice 系统上比 15 种 PyTorch 优化器快 148-602 倍，精度仅略低于二阶优化器 LBFGS。

消融与泛化实验¶

设置	位置 MSE (最终)	说明
SWIM RF-HGN, 训练 3×3, 测试 100×100	低误差	零样本泛化成功
ELM RF-HGN, 训练 3×3, 测试 100×100	中等误差	SWIM 优于 ELM 约一个数量级
训练 2×2, 测试 100×100	高误差	2×2 系统边缘情况，缺少 4 度节点
RF-HNN (非图), 训练 8, 测试 8	较高误差	图架构精度高 1-2 个数量级

势函数	Adam HGN	ELM RF-HGN	SWIM RF-HGN
弹簧 \(V(r)=\frac{1}{2}\beta r^2\)	3.88e-3	2.33e-3	3.41e-5
非谐振子	4.56e-2	4.32e-2	5.23e-4
Morse 势	8.89e-2	7.40e-4	1.22e-3

关键发现¶

SWIM 显著优于 ELM：SWIM 利用数据分布信息放置超平面，在几乎所有实验中精度高一到两个数量级
零样本泛化极强：仅用 \(2^3=8\) 节点训练，可准确预测 \(2^{12}=4096\) 节点系统的动力学；3×3 lattice 训练可泛化至 100×100
与 NeurIPS 2022 benchmark 对比：RF-HGN 训练时间仅 2-5 秒，而其他物理 GNN（FGNN、LGN 等）需要 400-53000 秒
复杂势函数适用：非谐振子和 Morse 势等非线性力场也能被 RF-HGN 合理近似，仍保持 200-300 倍加速

亮点与洞察¶

无梯度训练范式转换：将神经网络训练从非凸迭代优化转化为凸线性求解，这是一个根本性的思路转变。对于结构化的物理模型，这种方法可能比传统深度学习训练更优，因为物理约束已经限定了解空间
SWIM 数据驱动采样的巧妙性：SWIM 不是盲目采样，而是从数据对中构造超平面参数，使激活函数的"切换区域"精确对齐数据的变化梯度。这种采样策略将先验知识（数据分布）编码进了随机过程
零样本泛化的实用价值：在小系统上训练 → 在大系统上部署，这在分子动力学模拟中极有价值，因为大系统的训练数据生成本身就很昂贵

局限与展望¶

图类型受限：训练于链状图的模型无法泛化到 lattice 图（边度数不同），零样本泛化仅限同类型图结构
动态边场景效果一般：分子动力学中使用截断距离定义的动态边约 10% 相对误差，所有优化器均如此
不支持多层消息传递：当前仅使用单层消息传递，未来需要探索随机特征增强（RF boosting）来支持更深架构
小图场景非最优：对于很小的系统，全连接的 HNN 架构训练更快，图结构的开销反而成为负担

评分¶

新颖性: ⭐⭐⭐⭐ 首次将随机特征方法引入物理信息图网络，范式转换有意义
实验充分度: ⭐⭐⭐⭐⭐ 15 种优化器对比、多种势函数、零样本泛化、NeurIPS benchmark 复现，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，理论推导完整，图表质量高
价值: ⭐⭐⭐⭐ 对物理模拟社区极有价值，但受限于特定的图网络架构类型