GenMol: A Drug Discovery Generalist with Discrete Diffusion¶

会议: ICML2025
arXiv: 2501.06158
代码: NVIDIA-Digital-Bio/genmol
领域: 药物发现 / 分子生成
关键词: 离散扩散模型, SAFE分子表示, 片段重掩码, 分子优化, 药物设计

一句话总结¶

提出 GenMol，一个基于掩码离散扩散（Masked Discrete Diffusion）的通用分子生成框架，通过非自回归双向并行解码生成 SAFE 序列，并引入片段重掩码（fragment remasking）和分子上下文引导（MCG），用单一模型覆盖从头生成、片段约束生成、目标导向 hit 生成和先导化合物优化四大药物发现场景，全面超越此前最优方法。

研究背景与动机¶

药物发现涉及多个阶段：从头（de novo）分子生成、片段约束生成（linker design、scaffold morphing 等）、目标导向 hit 生成以及先导化合物（lead）优化。现有分子生成模型通常只覆盖其中一两个场景，无法作为通用工具贯穿整个流程。

此前最具代表性的通用方法是 SAFE-GPT，它将分子表示为 SAFE（Sequential Attachment-based Fragment Embedding）序列，利用 GPT 自回归解码完成多种任务。然而 SAFE-GPT 存在三个主要缺陷：

token 顺序依赖：SAFE 本身是片段顺序无关的，但 GPT 的自左向右解码与此矛盾

效率低：自回归逐 token 生成，无法并行解码

引导困难：自回归模型难以在生成过程中引入全局引导；目标导向生成需要额外的强化学习微调

GenMol 的核心动机是：用离散扩散替代自回归，在保持 SAFE 表示优势的同时解决上述三个痛点。

方法详解¶

整体架构¶

GenMol 采用 BERT 架构作为去噪网络，训练框架基于 MDLM（Masked Discrete Language Model）。输入是 SAFE 分子序列，前向过程逐步将 token 替换为 [MASK]，反向过程通过双向注意力并行预测被掩码的 token。

前向掩码过程¶

对序列中每个 token \(\boldsymbol{x}^l\) 独立插值：

\[q(\boldsymbol{z}_t^l | \boldsymbol{x}^l) = \text{Cat}(\boldsymbol{z}_t^l;\; \alpha_t \boldsymbol{x}^l + (1-\alpha_t)\mathbf{m})\]

其中 \(\alpha_t\) 是单调递减的掩码率调度函数，\(t=0\) 时全部未掩码，\(t=1\) 时全部掩码。

反向解码过程¶

未被掩码的 token 保持不变；对被掩码位置，模型预测去噪分布：

\[p_\theta(\boldsymbol{z}_s^l | \boldsymbol{z}_t^l = \mathbf{m}) = \text{Cat}\!\left(\boldsymbol{z}_s^l;\; \frac{(1-\alpha_s)\mathbf{m} + (\alpha_s - \alpha_t)\boldsymbol{x}_\theta^l(\boldsymbol{z}_t, t)}{1-\alpha_t}\right)\]

训练损失¶

NELBO 损失，本质是不同时间步上 MLM（交叉熵）损失的加权平均：

\[\mathcal{L}_{\text{NELBO}} = \mathbb{E}_q \int_0^1 \frac{\alpha_t'}{1-\alpha_t} \sum_l \log \langle \boldsymbol{x}_\theta^l(\boldsymbol{z}_t, t),\; \boldsymbol{x}^l \rangle \, dt\]

置信度采样¶

在每步解码中，模型对所有被掩码位置并行预测，取 top-\(N\) 最高置信度的 token 揭示，通过 softmax 温度 \(\tau\) 和随机度 \(r\) 控制质量-多样性权衡。

片段重掩码（Fragment Remasking）¶

这是 GenMol 进行目标导向分子优化的核心策略，三步循环：

片段评分：将分子集合分解为片段词表，每个片段的分数为包含该片段的分子的目标属性均值：\(y(\boldsymbol{f}_k) = \frac{1}{|\mathcal{S}(\boldsymbol{f}_k)|} \sum_{\boldsymbol{x} \in \mathcal{S}(\boldsymbol{f}_k)} y(\boldsymbol{x})\)
片段拼接：从词表中随机选两个高分片段拼接成初始分子
片段重掩码：随机选初始分子的一个片段，替换为 [MASK] 序列，由 GenMol 重新生成新片段

这一过程可解释为片段级吉布斯采样——在给定分子的邻域中随机游走，动态更新片段词表，实现超越初始词表的化学空间探索。

分子上下文引导（MCG）¶

受 autoguidance 启发，MCG 在 logit 空间插值"好输入"与"差输入"的预测：

\[\log \boldsymbol{x}_{\theta,i}^{(w),l} := w \log \boldsymbol{x}_{\theta,i}^l(\boldsymbol{z}_t, t) + (1-w) \log \boldsymbol{x}_{\theta,i}^l(\tilde{\boldsymbol{z}}_t, t)\]

其中 \(\tilde{\boldsymbol{z}}_t\) 是对 \(\boldsymbol{z}_t\) 额外掩码 \(\gamma \cdot 100\%\) token 后得到的退化输入，\(w>1\) 为引导强度。这使 GenMol 在片段约束生成和目标导向生成中更好地利用分子上下文信息。

实验关键数据¶

De Novo 生成¶

方法	Validity(%)	Uniqueness(%)	Quality(%)	Diversity
SAFE-GPT	94.0	100.0	54.7	0.879
GenMol (N=1, τ=0.5, r=0.5)	100.0	99.7	84.6	0.818
GenMol (N=3, τ=0.5, r=0.5)	95.6	99.0	67.1	0.861

关键发现：GenMol Quality 从 SAFE-GPT 的 54.7% 提升到 84.6%（+30pp），同时 Validity 达到 100%。N=3 时采样速度比 SAFE-GPT 快 2.5×。

片段约束生成（平均 Quality）¶

方法	Linker	Scaffold Morphing	Motif Extension	Scaffold Decoration	Superstructure
SAFE-GPT	21.7	16.7	18.6	10.0	14.3
GenMol	21.9	—	30.1	31.8	34.8

GenMol 在 5 个子任务上全面超越 SAFE-GPT。

目标导向 Hit 生成（PMO benchmark, 23 个任务）¶

方法	Sum AUC Top-10
GenMol	18.362
f-RAG	16.928
Genetic GFN	16.213
Mol GA	14.708
REINVENT	14.196

GenMol 在 23 个任务中的 19 个取得最佳成绩，总分 18.362 大幅领先第二名 f-RAG（+1.434）。

先导化合物优化¶

在 5 个靶蛋白×3 个种子分子×2 个相似度阈值 = 30 个任务中，GenMol 在 26/30 个任务成功优化（baseline 在 δ=0.6 时大量失败），验证了片段重掩码策略在化学空间探索中的有效性。

亮点与洞察¶

统一框架：单一模型、单一 checkpoint 覆盖四大药物发现场景，无需针对不同任务微调
片段重掩码 = 片段级吉布斯采样：将离散扩散的 remasking 与化学直觉（片段是功能单元）结合，优于 token 级 remasking
MCG 引导无需额外训练：直接通过退化输入对比即可引导生成，不需要条件训练或 RL 微调
质量-多样性帕累托前沿：通过 (τ, r) 参数连续调节生成策略，用户可根据需求灵活平衡
非自回归并行解码：天然适配 SAFE 的片段顺序无关性，同时带来采样加速

局限与展望¶

仅限 2D 分子图：GenMol 生成 SAFE 字符串（2D），不直接生成 3D 构象，对需要 3D 结构的对接任务需后处理
对接分数作为 oracle：lead optimization 使用 docking score 评估结合亲和力，实际场景中可能需要更精确的评估
片段分解依赖 BRICS 规则：预定义的分解规则可能遗漏某些化学有意义的子结构
缺乏蛋白-配体联合建模：目前不考虑靶蛋白的 3D 口袋信息，限制了结构导向的药物设计
MCG 引导的超参数：引导强度 w 和额外掩码比例 γ 的选取需要任务相关的调参

评分¶

新颖性: ⭐⭐⭐⭐ — 离散扩散+SAFE+片段重掩码的组合新颖，MCG 是首次在掩码离散扩散中引入 autoguidance
实验充分度: ⭐⭐⭐⭐⭐ — 四大任务、23+30 个子任务、多个 baseline 对比，消融全面
写作质量: ⭐⭐⭐⭐ — 框架清晰，图示直观，数学推导完整
价值: ⭐⭐⭐⭐⭐ — 统一框架在所有任务上 SOTA，具有很强的实用价值和工业部署潜力