BoltzNCE: Learning Likelihoods for Boltzmann Generation with Stochastic Interpolants¶

会议: NeurIPS 2025
arXiv: 2507.00846
代码: 有
领域: 生成模型 / 分子模拟
关键词: Boltzmann分布, 噪声对比估计, 随机插值, 分子构象, 自由能

一句话总结¶

BoltzNCE 用 Score Matching + InfoNCE 混合训练 Energy-Based Model 来近似 Boltzmann Generator 的似然，避免了昂贵的 Jacobian trace 计算，在丙氨酸二肽构象生成上实现 100× 推理加速且自由能误差仅 0.02 \(k_BT\)。

研究背景与动机¶

领域现状：Boltzmann Generator（BG）是从能量函数 \(E(x)\) 对应的 Boltzmann 分布 \(p(x) \propto \exp(-E(x)/k_BT)\) 采样的深度生成模型。基于 normalizing flow 或 diffusion 的方法可以生成样本，但计算似然需要昂贵的 Jacobian 行列式/trace。
现有痛点：精确似然计算（如 Hutchinson estimator for trace）在推理时极慢（equivariant CNF 需 9.37 小时 for alanine dipeptide），成为将 BG 用于自由能计算和重要性采样的瓶颈。
核心矛盾：好的采样质量需要准确的 flow/diffusion 模型，但似然评估的计算代价与采样质量无关——即使采样很好，每次评估似然仍然贵。
本文要解决什么：将采样器质量和似然可处理性解耦——用一个独立的 EBM 来近似似然，避免 Jacobian 计算。
切入角度：将 BG 分为两阶段——先训练 Boltzmann Emulator（用 flow matching），再训练 EBM 近似其密度（用 NCE + score matching）。
核心idea一句话：用 EBM 的 NCE 训练作为 Boltzmann Generator 似然的快速代理，实现 100× 推理加速。

方法详解¶

整体框架¶

两阶段：(1) 用 stochastic interpolant + flow matching 训练 Boltzmann Emulator（生成 Boltzmann 分布样本）；(2) 在生成样本上用混合 Score Matching + InfoNCE 训练 EBM \(\hat{U}(x)\)，使 \(\exp(\hat{U}(x))\) 近似真实密度。

关键设计¶

Stochastic Interpolant 框架:
做什么：在噪声 \(x_0\) 和 Boltzmann 样本 \(x_1\) 之间建立平滑路径 \(I_t = \alpha_t x_0 + \beta_t x_1\)
核心思路：训练向量场 \(v_t\) 匹配由插值诱导的概率流，实现从噪声到 Boltzmann 分布的映射
设计动机：stochastic interpolant 自然地连接了 ODE 流和扩散过程，为后续的 EBM 训练提供特殊的 score function
BoltzNCE 混合训练:
做什么：同时用 Score Matching 和 InfoNCE 训练 EBM
Score Matching Loss：\(\mathcal{L}_{SM} = \mathbb{E}[|\alpha_t \nabla\hat{U}_t(\tilde{I}_t) + x_0|^2]\) — 强制 EBM 的梯度匹配插值过程的 score
InfoNCE Loss：\(\mathcal{L}_{InfoNCE} = -\mathbb{E}[\log\frac{\exp(\hat{U}_t(\tilde{I}_t))}{\sum_{t'}\exp(\hat{U}_{t'}(\tilde{I}_t))}]\) — 通过时间步对比学习密度
混合：\(\mathcal{L}_{BoltzNCE} = \mathcal{L}_{SM} + \mathcal{L}_{InfoNCE}\)
设计动机：单独 InfoNCE 给出全局密度但梯度不准，单独 SM 给出好的梯度但密度不准——两者互补
自由能估计与重要性采样重加权:
做什么：用 EBM 的似然做重要性采样，修正采样偏差
核心思路：\(\hat{Z} = \sum_i w_i\)，\(w_i = \exp(-E(x_i)/k_BT) / \hat{\rho}(x_i)\)
自由能差：\(\Delta F = -k_BT \ln(\hat{Z}_A / \hat{Z}_B)\)

损失函数 / 训练策略¶

两阶段训练。Stage 1: Flow matching with equivariant vector field。Stage 2: Score matching + InfoNCE，各 epoch ~12h 总训练时间。

实验关键数据¶

主实验（丙氨酸二肽）¶

方法	\(\Delta F / k_BT\)	误差	推理时间
Umbrella Sampling (ground truth)	4.10 ± 0.26	–	–
ECNF (精确似然)	4.09 ± 0.05	0.01	9.37h
GVP Vector Field	4.38 ± 0.67	0.28	18.4h
BoltzNCE	4.08 ± 0.13	0.02	0.09h

消融实验¶

配置	KL 散度 (8-mode Gaussian)	说明
InfoNCE only	0.2395	梯度不准
Score Matching only	0.2199	全局密度不准
BoltzNCE (combined)	0.0150	15× 改进

配置	KL (Checkerboard)	说明
InfoNCE only	3.8478	多模态难对齐
BoltzNCE	0.1987	19× 改进

关键发现¶

混合训练比任一单独方法提升 15-19×（KL 散度），两个损失确实互补
推理 100× 加速（0.09h vs 9.37h），因为 EBM 前向传播比 Jacobian trace 快得多
自由能误差 0.02 \(k_BT\)，与精确方法（0.01）相当
泛化到 7 种二肽系统，误差可接受（0.43 \(k_BT\)），6× 加速

亮点与洞察¶

采样-似然解耦：将好的采样器和快速似然评估分离是一个聪明的设计——不需要让生成模型本身可计算似然，用独立的 EBM 作为代理。这个思路可推广到任何需要似然但生成模型不提供的场景。
NCE + SM 互补性：InfoNCE 提供全局密度对齐（通过对比不同时间步），SM 提供局部梯度准确性——两者的组合在 2D 实验中的 15× 改进非常有说服力。
科学计算的实际加速：100× 推理加速对分子模拟有巨大实际价值，使得自由能计算从需要集群变为单 GPU 可行。

局限性 / 可改进方向¶

仅在小分子（二肽）上验证，大蛋白质/复杂系统的可扩展性未知
泛化到新二肽系统时误差增大（0.43 vs 0.02 \(k_BT\)），需要微调
EBM 训练本身需要 ~12h，虽然是一次性成本但不可忽略
近似似然引入的偏差在极端尾部可能被放大

评分¶

新颖性: ⭐⭐⭐⭐ 采样-似然解耦 + NCE/SM 混合在 Boltzmann 生成中的首次应用
实验充分度: ⭐⭐⭐⭐ 2D 合成 + 丙氨酸二肽 + 7 二肽泛化
写作质量: ⭐⭐⭐⭐ 理论推导清晰，2D 实验直观展示了互补性
价值: ⭐⭐⭐⭐ 对分子模拟和自由能计算有重要实际意义