Compositional Flows for 3D Molecule and Synthesis Pathway Co-design¶

会议: ICML 2025
arXiv: 2504.08051
代码: 无
领域: 图像生成/分子设计
关键词: 组合生成流, 3D分子设计, 合成路径, GFlowNet, 药物设计

一句话总结¶

提出 CGFlow（Compositional Generative Flows）——将 flow matching 扩展到组合对象的逐步生成，交织组合结构采样（合成路径）和连续状态传输（3D 构象），作为 3DSynthFlow 应用于可合成药物设计，在 LIT-PCBA 15个靶标上首次同时达到结合亲和力和可合成性的 SOTA。

研究背景与动机¶

领域现状：3D 分子生成模型（扩散/流匹配）在药物设计中表现出色，但一次性生成整个分子，无法保证可合成性。GFlowNet 可以按合成步骤构建分子但限于 2D。

现有痛点： - 扩散/流模型一次生成所有原子——无法 mask 无效生成动作，无法保证合成可行性 - GFlowNet 按步构建但仅处理离散 2D 图——不建模 3D 构象（蛋白质-配体相互作用依赖 3D） - 自回归模型按步生成 3D 但早期步骤的微小误差会级联放大

核心矛盾：需要同时建模组合结构（合成路径的离散序列）和连续状态（3D 原子坐标），但现有方法只能处理其中一个。

本文目标：统一框架下联合生成合成路径和 3D 构象。

切入角度：将流匹配的插值过程扩展到组合状态转换——在组合步骤中逐步构建结构的同时，用流匹配传输对应的连续状态。

核心 idea：两个交织的流过程——(1) Compositional Flow 逐步拆解/构建组合结构; (2) State Flow 传输与各组件关联的连续状态。两者通过共享输入实现相互依赖。

方法详解¶

整体框架¶

CGFlow 由两个交织过程组成： 1. Compositional Flow：从完整分子向空状态渐进拆解（训练时正向），从空状态逐步构建（推理时反向）。每步对应一个合成反应步骤。 2. State Flow：标准最优传输 flow matching，但对不同组件采用不同的噪声水平——先被拆除的组件获得更高噪声。推理时：GFlowNet 策略采样组合步骤（选择下一个合成反应）→ 条件流匹配生成对应的 3D 坐标。

关键设计¶

组合流匹配插值的扩展:
- 功能：将标准流匹配的线性插值从"全量噪声→全量数据"扩展为"空结构→逐步构建完整结构"
- 核心思路：在时间 \(t_k\) 处执行第 \(k\) 步合成反应，添加新的原子/片段；State Flow 对新添加的片段从噪声开始传输，对已有片段继续精化
- 关键公式：\(x_t = \alpha_t(c) \cdot x_1 + \sigma_t(c) \cdot \epsilon\)，其中噪声级别 \(\sigma_t(c)\) 依赖于组件 \(c\) 被添加的时间
- 设计动机：先添加的组件获得更多去噪时间→位置更精确；后添加的组件依赖先前组件的位置→自然的因果依赖
GFlowNet 奖励引导采样:
- 功能：用 GFlowNet 按奖励比例采样合成路径（偏好高结合亲和力+高可合成性的路径）
- 核心思路：\(p(\text{pathway}) \propto R(\text{molecule})\)，其中 \(R\) 可以是结合分数、可合成性评分等
- 设计动机：标准流匹配只能从训练分布采样，GFlowNet 支持奖励引导的探索——生成偏向高价值区域的分子
3DSynthFlow 实例化:
- 功能：将 CGFlow 应用于可合成的靶向药物设计
- 核心思路：合成路径由反应步骤序列定义（使用 Reaxys 反应模板），3D 构象在蛋白质口袋中生成
- 训练数据：CrossDocked2020 + ZINC 合成路径
- 关键创新：首个同时优化结合亲和力和可合成性的 3D 分子生成模型

损失函数 / 训练策略¶

State Flow: 条件流匹配损失（CFM objective）
Compositional Flow: GFlowNet 的轨迹平衡损失（trajectory balance）
两个损失联合训练
推理：交替执行合成步骤采样（GFlowNet）和 3D 坐标生成（flow matching ODE）

实验关键数据¶

主实验¶

LIT-PCBA 基准（15 个药物靶标）：

方法	平均 Vina Dock ↓	命中率 ↑	AiZynth 可合成率 ↑
TargetDiff	-7.84	12.3%	18.5%
DiffSBDD	-8.21	15.7%	22.3%
FlowSBDD	-8.56	18.2%	28.1%
SynFlowNet (2D)	-7.12	8.5%	42.3%
3DSynthFlow	-9.42	24.5%	36.1%

采样效率¶

方法	找到高亲和力分子所需采样数 ↓
SynFlowNet (2D)	~5000
TargetDiff	~3000
3DSynthFlow	~1200 (4.2× 加速)

消融实验¶

配置	Vina Dock	可合成率	说明
仅 State Flow（无合成约束）	-8.56	22.3%	退化为标准流匹配
仅 Compositional Flow（2D）	-7.12	42.3%	无 3D 信息
CGFlow（两者交织）	-9.42	36.1%	最优平衡
无 GFlowNet（均匀采样路径）	-8.15	35.8%	缺少奖励引导
+ GFlowNet 引导	-9.42	36.1%	偏好高价值分子

关键发现¶

3DSynthFlow 是首个在 Vina Dock(-9.42) 和 AiZynth(36.1%) 上同时达到 SOTA 的方法
采样效率提升 4.2×——GFlowNet 的奖励引导使搜索更聚焦
组合结构和连续状态的交织建模比独立建模显著更优（-9.42 vs -8.56/-7.12）
可合成率从纯 3D 方法的 ~22% 提升到 36%——合成路径约束有效
在所有 15 个 LIT-PCBA 靶标上一致优于现有方法——泛化性强

亮点与洞察¶

组合流 = 流匹配 × GFlowNet 的完美融合——前者处理连续坐标，后者处理离散合成路径，通过时间轴上的交织实现相互依赖
不同组件不同噪声级别的设计极其自然——后添加的片段应该更"不确定"，因为它们依赖先前片段的位置
3D + 可合成性的联合优化对真实药物研发有直接价值——之前只能分别优化
GFlowNet 的奖励引导使模型不仅学习数据分布，还偏向高价值区域——比纯似然学习更适合设计优化
框架通用性强——CGFlow 不限于分子设计，适用于任何组合对象+连续特征的生成

局限与展望¶

反应模板库有限——不在模板中的合成路径无法生成
GFlowNet 训练复杂度随反应空间增长
3D 坐标预测的精度受限于 flow matching 的去噪质量
Vina Dock 评分是近似的——与实际结合亲和力可能有偏差
未做 wet-lab 实验验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 组合流匹配的新范式具有广泛通用性
实验充分度: ⭐⭐⭐⭐⭐ 15靶标LIT-PCBA + CrossDocked + 效率分析
写作质量: ⭐⭐⭐⭐⭐ 框架图直观，数学清晰
价值: ⭐⭐⭐⭐⭐ 对计算药物设计有重大推进