跳转至

Amortized Sampling with Transferable Normalizing Flows

会议: NeurIPS 2025
arXiv: 2508.18175
代码: GitHub | 模型权重 | 数据集
领域: 分子生成 / 归一化流 / 统计采样
关键词: normalizing flow, Boltzmann generator, transferable sampler, peptide, importance sampling

一句话总结

提出 Prose——一个 285M 参数的全原子可迁移归一化流,基于 TarFlow 架构训练在 21,700 个短肽 MD 轨迹上(总计 4.3ms 模拟时长),实现对任意短肽系统的零样本无相关性提议采样,在能量评估预算相同时超越 MD 基线,生成速度比之前的可迁移玻尔兹曼生成器 (TBG) 快 4000 倍。

研究背景与动机

  1. 领域现状:从玻尔兹曼分布采样分子构象是计算化学的核心问题,应用于蛋白质折叠、药物设计等。传统方法(分子动力学 MD、MCMC)是马尔可夫方法——每个系统的计算成本必须从头支付,不可摊还;且高度自相关,难以高效探索多模态。

  2. 现有痛点:(a) MD 需要飞秒级时间步,产生高度相关样本,需长时间模拟才能覆盖亚稳态;(b) 深度学习采样器(玻尔兹曼生成器 BG)在单系统上有效,但几乎不能迁移到新系统;(c) 之前唯一的可迁移 BG (TBG) 基于连续归一化流,密度评估极慢(4 GPU-天仅 3×10⁴ 样本),且仅在二肽上成功迁移。

  3. 核心矛盾:需要一种既能高效生成样本、又能精确评估似然(用于重要性采样纠偏)、还能跨系统迁移的采样方法。

  4. 本文要解决什么?

  5. 能否训练一个在不同氨基酸组成、序列长度、温度下都能迁移的采样器?
  6. 能否实现比 MD 更好的样本效率?

  7. 切入角度:用大规模自回归归一化流(TarFlow 架构)+ 大规模短肽 MD 数据集 + 化学感知的序列排列,实现可扩展的可迁移玻尔兹曼生成器。

  8. 核心 idea 一句话:用 285M 参数的 Transformer 归一化流在 21,700 个短肽系统上训练,实现跨系统零样本提议采样 + SNIS 纠偏。

方法详解

整体框架

Prose 是一个全原子自回归归一化流:输入高斯噪声 \(z\),通过可逆变换 \(x = f_\theta^{-1}(z)\) 生成分子构象,同时通过变换的雅可比行列式精确计算似然 \(q_\theta(x)\)。训练用最大似然目标在 MD 轨迹上拟合,推理时用 SNIS 重新加权修正模型误差。系统迁移通过条件化原子类型、残基类型、残基位置和序列长度实现。

关键设计

  1. TarFlow 架构 + 变长序列支持
  2. 做什么:支持在不同长度的肽序列上并行训练和推理。
  3. 核心思路:TarFlow 用 Transformer 块参数化自回归仿射变换序列。Prose 扩展 TarFlow:(a) 用 masking 处理变长序列的 padding token,防止 padding 影响计算和对数行列式;(b) 用正弦位置编码替代固定学习嵌入以支持长度外推;(c) 每维度归一化对数似然 \(\frac{1}{d(s)} \log q_\theta(x)\) 处理不同系统的维度差异。
  4. 设计动机:Transformer 天然支持变长序列,但归一化流要求固定维度——通过 masking 巧妙解决。

  5. 化学感知的序列排列(Chemistry-Aware Permutations)

  6. 做什么:定义更适合肽建模的自回归排列顺序。
  7. 核心思路:标准 TarFlow 仅用身份和翻转排列。Prose 引入"主链优先"排列:先处理所有残基的主链原子 \([N_i, C_{\alpha,i}, C_i, O_i]\),再处理侧链。这样在处理侧链时,模型可以通过因果注意力看到完整的主链结构——局部更新受全局结构影响。
  8. 设计动机:分子不像图像有规则网格,主链-侧链有层次结构。"先骨架后细节"的排列符合分子物理——侧链构象强烈依赖主链构象。

  9. 自适应系统条件化

  10. 做什么:让模型知道当前生成的是哪个肽系统。
  11. 核心思路:条件特征 \(h[i] = [A_i, R_i, P_i, L]\)(原子类型、残基类型、残基位置、序列长度),通过自适应 LayerNorm、自适应缩放和 SwiGLU 过渡块注入 Transformer(受 AlphaFold3 启发)。
  12. 设计动机:比简单加法条件化更强大,使模型能捕获不同氨基酸的复杂物理化学性质。

  13. 自改进微调(Self-Improvement Fine-tuning)

  14. 做什么:对未见系统进行无训练数据的微调。
  15. 核心思路:从 \(q_\theta(x|s)\) 采样,用重要性权重 \(w_i = p(x_i)/q_\theta(x_i)\) 重采样,在重采样后的"伪真实数据"上最大似然微调。不需要真实 MD 轨迹——完全自举。
  16. 设计动机:零样本性能已经不错,但微调能进一步提升。利用 SNIS 重采样产生更接近目标分布的样本作为"无免费午餐"的训练数据。

损失函数 / 训练策略

  • 训练:最大似然 \(\max_\theta \mathbb{E}_s \frac{1}{d(s)} \mathbb{E}_{x \sim p(x|s)} \log q_\theta(x)\)
  • 推理:SNIS(自归一化重要性采样)纠偏
  • 数据集:ManyPeptidesMD,21,700 个序列 × 200ns = 4.3ms 总模拟时长
  • 模型:285M 参数,TarFlow + Transformer

实验关键数据

主实验:零样本性能 vs MD(30 个未见四肽系统)

方法 能量 W₂↓ 二面角 W₂↓ TICA W₂↓
MD (1μs) 基线 基线 基线
Prose + SNIS 优于 MD 优于 MD 显著优于 MD

Prose 在相同能量评估预算下全面超越 1μs MD,尤其在宏观结构指标(TICA)上优势巨大。

速度对比

方法 提议速度
TBG (连续归一化流) 4 GPU-天 / 3×10⁴ 样本
Prose 4000× 更快

跨长度迁移

长度 训练时包含 零样本效果
2-8 残基 优秀
>8 残基 待验证

关键发现

  • 零样本超越 MD:在宏观结构指标上,Prose 无需见过目标系统就优于花费大量计算的 MD——因为 MD 在有限时间内可能卡在单一亚稳态,而 Prose 生成无相关性样本
  • SNIS 已足够:不需要复杂的 SMC 等高级采样算法,简单的重要性采样重加权就足以产生高质量分布估计——说明 Prose 的提议分布质量很高
  • 自改进微调有效:在未见系统上迭代自改进,性能持续提升,接近使用真实 MD 数据训练的效果
  • 温度迁移:简单缩放先验温度 \(\beta \log q_z(z)\) 就能产生不同温度下的合理提议——虽然理论上不严格(非体积保持流),但实践有效

亮点与洞察

  • "摊还采样"的范式转换非常有价值:传统 MD 每个系统都要从头模拟,Prose 通过跨系统训练将大部分计算"预付"在训练阶段,推理时近乎零成本。
  • 化学感知排列是一个对分子生成非常实用的 trick:利用分子的层次结构(主链→侧链)设计自回归顺序,符合物理直觉且显著提升效果。
  • 开源全套资源(代码+模型+数据集)极大促进了领域研究。
  • 4000× 加速相比之前唯一的可迁移 BG,使方法真正可用于实际研究。

局限性 / 可改进方向

  • 仅限短肽(≤8残基):蛋白质通常有 100-300 残基,当前方法距离蛋白质级别还很远
  • 隐式溶剂:训练在隐式溶剂模型上,真实溶剂效应未考虑
  • 仅限 Amber14 力场:在其他力场上的效果未验证
  • 温度迁移不严格:对非体积保持流,简单缩放先验温度只是近似
  • 长序列外推能力:虽然支持变长,但对超出训练长度范围的系统可能退化

相关工作与启发

  • vs TBG (Klein & Noe):TBG 用连续归一化流,密度评估极慢;Prose 用自回归归一化流(TarFlow),密度评估快 4000×,且成功迁移到更长序列
  • vs BG (Noé et al.):标准 BG 只能在单系统上训练;Prose 通过条件化和大规模训练实现跨系统迁移
  • vs AlphaFold3 / AITHYRA:这些方法关注结构预测,Prose 关注平衡采样——互补而非竞争
  • 可迁移启示:大规模跨系统训练 + 系统条件化的思路可迁移到其他科学采样任务(晶体结构、小分子构象等)

评分

  • 新颖性: ⭐⭐⭐⭐ 首个成功跨肽长度迁移的 BG,但核心架构(TarFlow)非原创
  • 实验充分度: ⭐⭐⭐⭐⭐ 大规模数据集+多基线+多指标+消融+自改进,非常全面
  • 写作质量: ⭐⭐⭐⭐⭐ 清晰严谨,背景、方法、实验的组织非常好
  • 价值: ⭐⭐⭐⭐⭐ 对计算化学/药物设计有重大意义,开源全套资源