Geometric Representation Condition Improves Equivariant Molecule Generation¶
会议: ICML 2025 (Spotlight)
arXiv: 2410.03655
代码: https://github.com/GraphPKU/GeoRCG (有)
领域: Medical Imaging (Molecular Generation)
关键词: 分子生成, 等变扩散, 几何表示条件, 两阶段生成, 条件分子生成
一句话总结¶
GeoRCG 提出两阶段分子生成框架——先生成低维的几何表示(informative representation),再以此为条件生成完整分子,在条件分子生成任务上平均提升 50%,同时可将扩散步数从 1000 减少到 100。
研究背景与动机¶
领域现状:3D 分子生成是药物设计的关键环节。等变扩散模型(如 EDM、GeoLDM)已成为该领域主流方法,能生成 SE(3)-等变的 3D 分子结构。
现有痛点:现有模型在无条件生成时表现尚可,但在条件生成(给定特定属性生成分子)时表现明显不足。这是因为条件信号(如 HOMO-LUMO gap)难以有效引导高维 3D 结构的生成过程。
核心矛盾:直接用标量属性条件化 3D 分子扩散过程,条件信号太弱(一个数值 vs 几十到上百个原子的 3D 坐标),引导效果有限。
本文目标:如何在等变分子生成中有效注入条件信息,特别是在条件分子生成任务中大幅提升性能。
切入角度:引入一个信息量丰富的中间"几何表示"作为桥梁——先生成表示,再以表示为条件生成分子。
核心 idea:用易于生成的语义丰富几何表示为高难度的 3D 分子生成提供目标导向的引导。
方法详解¶
整体框架¶
- 第一阶段:在低维空间生成几何表示 \(\mathbf{r}\)(包含分子的关键结构和属性信息)
- 第二阶段:以 \(\mathbf{r}\) 为条件,用等变扩散模型生成完整的 3D 分子 \((\mathbf{x}, \mathbf{h})\)
- 两阶段均可独立训练和推理
关键设计¶
-
几何表示设计:
- 从预训练的等变 GNN 提取分子的几何表示
- 表示编码了原子类型、空间排布、局部几何特征等信息
- 比原始 3D 坐标维度低,但携带关键语义信息
- 设计动机:条件信号需要既信息丰富又易于生成——太简单(标量属性)无法有效引导,太复杂(完整分子)等于没有简化
-
两阶段解耦生成:
- 第一阶段独立训练一个生成 \(\mathbf{r}\) 的扩散模型(可以是条件或无条件的)
- 第二阶段训练条件扩散:\(p_\theta(\mathbf{x}, \mathbf{h} | \mathbf{r})\)
- 理论保证:两阶段的组合分布可以逼近真实分子分布
- 设计动机:分解复杂生成问题为两个较简单的子问题
-
等变性保证:
- 几何表示 \(\mathbf{r}\) 本身满足 SE(3)-等变性
- 条件扩散过程保持等变性
- 组合后的整体生成仍然是等变的
- 设计动机:物理分子必须尊重旋转/平移对称性
损失函数 / 训练策略¶
- 表示提取:预训练等变 GNN 的潜层输出
- 第一阶段:标准扩散损失 on \(\mathbf{r}\)
- 第二阶段:条件等变扩散损失 \(\|\epsilon - \epsilon_\theta(\mathbf{x}_t, \mathbf{h}_t, t, \mathbf{r})\|^2\)
- 基础生成器可选 EDM 或 SemlaFlow
实验关键数据¶
主实验¶
| 数据集 | 任务 | GeoRCG | 基线方法 | 提升 |
|---|---|---|---|---|
| QM9 | 无条件生成 | 显著改善 | EDM/GeoLDM | 质量明显提升 |
| GEOM-DRUG | 无条件生成 | 显著改善 | EDM | 更好 |
| QM9 | 条件生成 (α) | SOTA | EDM/cond | ~50% 平均提升 |
| QM9 | 条件生成 (gap) | SOTA | EDM/cond | ~50% 平均提升 |
| QM9 | 条件生成 (μ) | SOTA | EDM/cond | ~50% 平均提升 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无几何表示条件 | 基线 | 标准单阶段生成 |
| 随机噪声作为条件 | 接近基线 | 说明需信息丰富的表示 |
| 标量属性条件 | 小幅改善 | 信息太少 |
| 几何表示条件 (1000步) | 最优 | 完整配置 |
| 几何表示条件 (100步) | 接近 1000步 | 步数减少 10x |
关键发现¶
- 条件生成提升巨大:平均 50% 的性能改善,这是通过更好的条件化方式实现的
- 步数大幅减少:几何表示引导下,100 步即可接近 1000 步的质量
- 通用框架:EDM 和 SemlaFlow 两种基础生成器都从 GeoRCG 获益
- 表示的语义丰富性是关键——随机表示无效
亮点与洞察¶
- 理论支撑:证明了两阶段分解生成可以逼近真实分布
- 简单而有效:方法概念简单但效果惊人(50% 提升)
- 双重收益:同时提升质量和减少采样步数
- Spotlight 论文:ICML 2025 以 Spotlight 接收,说明社区认可
局限与展望¶
- 需要预训练的 GNN 来提取表示,引入额外依赖
- 表示设计可能需要领域知识来选择最优的 GNN 和层
- 两阶段推理总时间需评估(虽然第二阶段步数减少)
- 在更大的分子(如蛋白质)上的扩展性未验证
相关工作与启发¶
- EDM (Equivariant Diffusion Model) 和 GeoLDM 是主要基线
- Classifier-guided diffusion 的思想在这里被推广为"表示引导"
- 启发:中间表示条件化可能是提升所有条件扩散模型的通用策略
评分¶
- 新颖性: ⭐⭐⭐⭐ 两阶段表示条件化的思路简洁有效
- 实验充分度: ⭐⭐⭐⭐⭐ QM9+GEOM-DRUG,多属性条件,步数消融
- 写作质量: ⭐⭐⭐⭐ 清晰,理论+实验平衡好
- 价值: ⭐⭐⭐⭐⭐ 50% 提升 + Spotlight = 高影响力工作
相关论文¶
- [ICML 2025] Scalable Non-Equivariant 3D Molecule Generation via Rotational Alignment
- [NeurIPS 2025] Unified All-Atom Molecule Generation with Neural Fields
- [ICML 2025] Geometric Generative Modeling with Noise-Conditioned Graph Networks
- [NeurIPS 2025] Manipulating 3D Molecules in a Fixed-Dimensional E(3)-Equivariant Latent Space
- [ICML 2025] Empower Structure-Based Molecule Optimization with Gradient Guided Bayesian Flow Networks