Energy Loss Functions for Physical Systems¶

会议: NeurIPS 2025
arXiv: 2511.02087
代码: 有
领域: 图像生成
关键词: 能量损失函数, 物理先验, 扩散模型, 对称不变性, 分子生成

一句话总结¶

提出基于物理能量的损失函数框架，通过反向 KL 散度与玻尔兹曼分布推导出以成对距离为基础的能量差损失，天然满足 SE(d) 不变性，在分子生成和自旋基态预测中显著优于 MSE 和交叉熵损失。

研究背景与动机¶

将机器学习应用于物理系统时，数据通常稀缺且昂贵，而物理先验知识的利用大多聚焦于架构层面（如等变网络）。损失函数这一互补方向被严重忽视。

核心问题：通用损失函数（MSE、交叉熵）为何不适合物理系统？

MSE 对应非物理能量：MSE 等价于以数据为中心的各向同性谐振势 \(E = \|\hat{y} - y\|^2\)——这描述的是外力将粒子拉回固定点，而非粒子间相互作用
对称性破坏：物理配置通常在刚体运动 SE(d) 下等价，但 MSE 会惩罚通过旋转/平移与目标等价的正确预测
MSE 最小化器偏差：当存在多个对称等价目标时，MSE 的最小化器是所有目标的均值——这不是任何合法物理配置

方法详解¶

整体框架¶

损失函数设计的核心思路：

将每个数据样本的不确定性建模为以该数据为中心的玻尔兹曼分布
使用反向 KL 散度（而非前向 KL / MLE）作为优化目标
最终损失等价于数据与预测之间的能量差

反向 KL 的两大优势：(a) 配分函数 \(Z(y, T)\) 不依赖模型参数 \(\theta\)，无需计算难以处理的归一化常数；(b) 只需定义数据点附近的势函数（预测可能很差，在预测处定义能量无意义）。

关键设计¶

1. 从 Reverse KL 到能量损失¶

对于玻尔兹曼分布 \(p(\hat{y}|y) = \exp(-E(\hat{y},y)/T) / Z(y,T)\)，反向 KL 损失为：

\[\mathcal{J}(\theta) = \sum_i \frac{E(\hat{y}_\theta^{(i)}, y^{(i)})}{T} + \log Z(y^{(i)}, T)\]

\(\log Z\) 项不含 \(\theta\)，可忽略。模型因预测偏离数据的能量增量而受惩罚。

MSE 是能量损失的特例：取 \(E(\hat{y},y) = \|\hat{y}-y\|^2\), \(T=2\sigma^2\)，得到高斯条件分布。但这对应的是非物理的外部谐振势。

2. 原子系统的二次对势能¶

对 \(n\) 个原子在 \(d\) 维空间的系统，定义成对距离的二次势能：

\[E(\hat{y}, y) = \sum_{i,j}^n \frac{1}{2}k_{ij}(y)(\|y_i - y_j\| - \|\hat{y}_i - \hat{y}_j\|)^2\]

物理含义：粒子间相互作用势能的二阶 Taylor 近似（弹簧模型）。弹簧系数 \(k_{ij}(y)\) 的选择：

系数类型	来源	适用场景
常数 \(k\)	Morse 势 Taylor 近似	理论分析
指数衰减	经验最优	EDM/GDM 模型
逆距离平方	Lennard-Jones 势 Taylor 近似	物理对应
逆距离	经验	JODO 模型

3. 对称不变性——免费获得¶

能量损失仅依赖不变的成对距离，天然满足 \(E(d)\) 不变性。进一步，损失对距离矩阵的自同构群也不变：

\[G = E(d) \times (\text{Aut}(k(y)) \cap \text{Aut}(\Delta y))\]

推论：全局最小化器集合为 \(\{g \cdot y \mid g \in G\}\)——模型可回归到任何与数据对称等价的配置，无需 Kabsch 对齐（后者需要 \(O(n^3)\)）。

4. 扩散模型中的应用¶

将能量损失直接替换扩散训练中的 MSE。关键理论结果：

Proposition 4.4：对 SE(d) 不变密度，在小 \(\sigma_t\) 下，最小范数最小化器：

\[\hat{\epsilon}^*_{\text{dist}} \approx -\sigma_t \nabla_{x_t}\log p(x_t)\]

即正确恢复了 score 函数。

Proposition 4.5：能量损失的 score 估计器方差不高于 MSE：

\[\text{Var}[\hat{\epsilon}^*_{\text{dist}}] \lesssim \text{Var}[\hat{\epsilon}^*_{\text{MSE}}]\]

5. 线性缩放：刚性理论¶

成对距离有 \(O(n^2)\) 项。利用 Laman 定理：仅需 \(O(n)\) 条边构成的刚性图即可从距离恢复坐标。稀疏刚性图将计算量降至线性，且不影响全局最优解。

6. 离散系统：自旋能量损失¶

对自旋系统 \(\hat{y}, y \in \{1,-1\}^\Lambda\)，定义局部场能量：

\[E(\hat{y}, y) = \sum_i h_i^{LF}(y)\hat{y}_i, \quad h_i^{LF}(y) = \sum_j (J_{ij} + h^0)y_j\]

局部场捕获翻转自旋的能量变化。目标变为变分自由能最小化。局部场损失是凸的，以数据为唯一最小化器（\(h^0 > 4\) 时）。

损失函数 / 训练策略¶

能量损失直接替换 MSE/交叉熵，无需修改其他训练流程。关键调优：\(k_{ij}\) 函数形式和位置/原子类型损失权重比。所有对比实验均进行了充分的学习率和权重扫描。

实验关键数据¶

主实验¶

表1：GEOM-Drugs 分子生成（GDM-aug）

损失	分子稳定性 (%)	原子稳定性 (%)	有效性 (%)	唯一性 (%)
MSE	0.8	85.6	94.8	100
Energy	24.6	96.0	89.7	100

分子稳定性从 0.8% 跃升至 24.6%，改善约 30 倍。

表2：QM9 分子生成（GDM-aug）

损失	分子稳定性 (%)	原子稳定性 (%)	有效性 (%)
MSE	83.7±2.3	98.3	93.6
Kabsch align	82.3±0.5	97.8	90.8
Energy	89.8±2.8	99.3	97.7
Energy (sparse)	89.1±0.9	99.0	97.4

表3：JODO 3D 与对齐指标

模型	分子稳定性	有效性	Bond↓	Angle↓
JODO (原始)	93.4	—	0.1475	0.0121
JODO+Energy(Inv.)	94.3	97.1	0.1125	0.0046

能量损失在近 SOTA 模型 JODO 上仍带来显著改善，对齐指标大幅优化。

消融实验¶

弹簧系数 \(k_{ij}\) 消融（QM9，GDM-aug）

系数类型	分子稳定性 (%)	有效性 (%)
指数衰减	89.8	97.7
逆距离平方	84.6	96.6
逆距离	84.5	95.0
常数	83.6	93.6

自旋基态预测

损失	测试能量
交叉熵	58.8±0.8
Margin	49.87±1.5
局部场能量	45.6±1.6
真实能量	14.6±0.3

关键发现¶

能量损失 + 非等变架构 > 等变架构 + MSE，计算代价可忽略
数据效率极高：50% 训练数据，能量损失产生 >75% 稳定分子（MSE 远不及）
稀疏刚性图将 \(O(n^2)\) 降至 \(O(n)\)，几乎无性能损失
不同模型最优 \(k_{ij}\) 不同（GDM 用指数衰减，JODO 用逆距离），需按任务调优
正则形状实验直观展示：能量损失对旋转增强完全免疫，MSE 在 \(\theta_{aug}=\pi\) 时崩溃

亮点与洞察¶

反向 KL + 玻尔兹曼 = 能量差损失：推导优雅，物理直觉清晰
不变性免费获得：距离基损失天然 SE(d) 不变，无需 Kabsch 的 \(O(n^3)\) 对齐
架构无关、即插即用：直接替换任何需要 MSE 的训练目标
MSE 的物理病理性被形式化：Figure 1 的三幅对比图极其直观——旋转后正确配置被 MSE 错误惩罚
刚性理论的巧妙运用：利用图刚性实现 \(O(n^2) \to O(n)\) 缩放

局限性 / 可改进方向¶

Score 恢复理论仅在小噪声下精确，高噪声需显式修正
弹簧系数选择仍需启发式调优，缺乏自动选择机制
未考虑扭转角信息，更丰富的替代能量（如包含角度项）值得探索
仅在小分子和 2D 自旋系统验证，蛋白质/晶体等大系统需进一步测试
非物理系数（指数衰减）优于理论上更正确的常数系数——这一张力需深入理解

评分¶

新颖性：⭐⭐⭐⭐⭐ — 从第一性原理推导损失函数，物理视角独到
技术深度：⭐⭐⭐⭐⭐ — 连续/离散统一框架，扩散 score 恢复证明，刚性理论应用
实验充分度：⭐⭐⭐⭐ — 分子+自旋+形状三类实验，但分子规模偏小
实用价值：⭐⭐⭐⭐⭐ — 即插即用、计算高效、理论有保障

选择各向同性谐波势 \(E(\hat{\mathbf{y}}, \mathbf{y}) = \|\hat{\mathbf{y}} - \mathbf{y}\|^2\) 恰好回退到高斯分布和 MSE 损失。但这种"能量"描述的是外力将粒子拉回参考位置，物理上不合理。

3. 原子系统的二次对势能量¶

对于 \(n\) 个原子的位置 \(\mathbf{y} \in \mathbb{R}^{n \times d}\)，提出基于粒子间距离的二次对势：

\[E(\hat{\mathbf{y}}, \mathbf{y}) = \sum_{i,j}^{n} \frac{1}{2} k_{ij}(\mathbf{y}) (\|\mathbf{y}_i - \mathbf{y}_j\| - \|\hat{\mathbf{y}}_i - \hat{\mathbf{y}}_j\|)^2\]

这是一般交互势在成对距离上的二阶 Taylor 近似。系数 \(k_{ij}(\mathbf{y})\) 有多种选择：常数（Morse 势近似）、逆距离、逆距离平方（LJ 势近似）、指数衰减等。

4. 对称不变性¶

命题：当 \(k_{ij}(\mathbf{y})\) 不变时，能量损失对 \(G = E(d) \times (\text{Aut}(k(\mathbf{y})) \cap \text{Aut}(\Delta y))\) 群不变——即自然尊重欧氏变换和粒子置换对称性。

推论：损失的全局极小值族恰好是 \(\{g \cdot \mathbf{y} | g \in G\}\)，模型可以回归到任何与数据对称等价的构型。

相比 Kabsch 对齐后再算 MSE 的方法，能量损失无需对齐操作，计算更高效。

5. 用于扩散模型¶

将能量损失直接替代扩散模型训练中的 MSE。理论分析表明，在低噪声水平下，常系数能量损失的最优预测器近似为正确的 score function 加上一个刚体运动方向的自由度：

\[\hat{\epsilon}^* \approx -\sigma_t \nabla_{\mathbf{x}_t} \log p(\mathbf{x}_t) + \mathbf{v}, \quad \mathbf{v} \in \ker(J(\mathbf{x}_t))\]

最小范数极小值恰好是正确的 score。此外证明了能量损失估计器的方差不超过 MSE 估计器。

6. 自旋系统的离散能量损失¶

对于 Ising 型哈密顿量 \(E(\mathbf{y}) = -\frac{1}{2}\sum_{ij} J_{ij} \mathbf{y}_i \mathbf{y}_j\)，定义局部场能量：

\[E(\hat{\mathbf{y}}, \mathbf{y}) = \sum_{i} h_i^{\text{LF}}(\mathbf{y}) \hat{\mathbf{y}}_i, \quad h_i^{\text{LF}}(\mathbf{y}) = \sum_j (J_{ij} + h^0) \mathbf{y}_j\]

损失变为变分自由能：\(\mathcal{J}(\theta) = \frac{1}{T}\left[\mathbb{E}_q[E] - T S[q] + T \log Z\right]\)。

实验关键数据¶

分子生成 — QM9（GDM-aug 模型）¶

损失	分子稳定率(%)	原子稳定率(%)	有效率(%)	唯一性(%)
MSE	83.7 ± 2.3	98.3	93.6	100.0
Kabsch 对齐	82.3 ± 0.5	97.8	90.8	100.0
能量损失	89.8 ± 2.8	99.3	97.7	99.9
能量损失(稀疏)	89.1 ± 0.9	99.0	97.4	100.0

分子稳定率提升 +6.1%，有效率提升 +4.1%。

GEOM-Drugs 大分子¶

损失	分子稳定率(%)	原子稳定率(%)	有效率(%)
MSE	0.8	85.6	94.8
能量损失	24.6	96.0	89.7

分子稳定率从 0.8% 飙升至 24.6%——在大分子场景下改进极其显著。

JODO 模型（近 SOTA）¶

能量损失在 atom stability (+0.4%)、mol stability (+3.8%)、validity (+2.8%) 上全面提升；bond length MMD 从 0.1218 降至 0.0928，表明生成的键长更精确。

自旋基态预测（16×16 格子）¶

损失	测试能量
交叉熵	58.8 ± 0.8
Margin Loss	49.87 ± 1.5
局部场能量损失	45.6 ± 1.6
真实能量（非分类）	14.6 ± 0.3

能量损失相比交叉熵大幅降低预测构型的能量。

低数据量实验¶

仅用 50% 训练数据（50K 样本），能量损失仍生成超过 75% 稳定分子；MSE 在相同数据量下表现大幅恶化——数据效率提升显著。

亮点¶

优雅的理论框架：从 reverse KL + Boltzmann 分布出发，统一了 MSE / 交叉熵 / 能量损失，给出了损失函数的物理解释
自然的对称不变性：无需 Kabsch 对齐就能尊重 SE(d) 对称性，且计算开销可忽略
与架构正交：能量损失是架构无关的即插即用模块，与等变架构（如 EGNN）的改进是互补的
理论保证：证明了扩散模型中能量损失能正确估计 score function，且方差更低
大分子场景（GEOM-Drugs）的改进从 0.8% → 24.6%，定量上令人印象深刻

局限性 / 可改进方向¶

用于扩散模型时，正确 score 的恢复仅在低噪声水平下精确；高噪声下需要显式校正
能量函数的选择仍有一定的 ad hoc 性，系数 \(k_{ij}\) 需要在新任务上消融
标准版本计算复杂度为 \(O(N^2)\)（粒子对），虽然稀疏刚性图可降至 \(O(N)\)，但稀疏图的构建需要额外处理
未探索扭转角等更丰富的几何描述符，也未在蛋白质或晶体材料上验证

与相关工作的对比¶

维度	MSE	Kabsch + MSE	能量损失
对称不变	✗	✓（需对齐）	✓（天然）
物理先验	无	无	粒子间交互
计算开销	O(N)	O(N³)对齐	O(N²) 或 O(N)
Score 恢复	精确	精确	近似精确+低方差
与等变架构互补	部分	部分	强互补

启发与关联¶

"损失函数也是一种先验"：损失函数隐含了对误差的分布假设，择定更符合物理的分布（Boltzmann）比简单高斯更有意义
对称性在损失层面解决比在架构层面更轻量：等变架构设计复杂且增加参数量，而不变损失函数仅改变目标计算
能量损失的梯度方向指向最近的合法构型（而非数据本身），这对对称性破缺的预测任务尤其有价值
框架可直接推广到任何处于热平衡的物理系统——晶体材料、蛋白质、软物质等

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 从第一性原理推导损失函数，理论深度出色
实验充分度: ⭐⭐⭐⭐ — 分子+自旋两类系统，多模型验证，消融充分
写作质量: ⭐⭐⭐⭐⭐ — 理论推导严谨优雅，直觉解释到位，图示启发性强
价值: ⭐⭐⭐⭐⭐ — 提供了一个通用且实用的框架，可直接改善现有分子生成流程

Energy Loss Functions for Physical Systems¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

1. 从 Reverse KL 到能量损失¶

2. 原子系统的二次对势能¶

3. 对称不变性——免费获得¶

4. 扩散模型中的应用¶

5. 线性缩放：刚性理论¶

6. 离散系统：自旋能量损失¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

3. 原子系统的二次对势能量¶

4. 对称不变性¶

5. 用于扩散模型¶

6. 自旋系统的离散能量损失¶

实验关键数据¶

分子生成 — QM9（GDM-aug 模型）¶

GEOM-Drugs 大分子¶

JODO 模型（近 SOTA）¶

自旋基态预测（16×16 格子）¶

低数据量实验¶

亮点¶

局限性 / 可改进方向¶

与相关工作的对比¶

启发与关联¶

评分¶