Apo2Mol: 3D Molecule Generation via Dynamic Pocket-Aware Diffusion Models¶
会议: AAAI 2026
arXiv: 2511.14559v1
代码: https://github.com/AIDD-LiLab/Apo2Mol (有)
领域: AI for Science / 药物设计 / 扩散模型
关键词: 结构药物设计, apo-holo构象变化, 蛋白质口袋动力学, 3D分子生成, SE(3)等变
一句话总结¶
提出Apo2Mol,一个基于扩散的全原子框架,从蛋白质apo(未结合)构象出发,同时生成3D配体分子和对应的holo(结合态)口袋构象,使用24K实验解析的apo-holo结构对训练,在结合亲和力(Vina min -7.86)和药物类似性上达到SOTA。
背景与动机¶
基于结构的药物设计(SBDD)中,现有深度生成模型(TargetDiff、DecompDiff等)假设蛋白质口袋是刚性的,直接在holo构象上训练和生成。但蛋白质本质上是动态的——配体结合会引发口袋的构象重排。当仅有apo构象可用时(新靶点、无共晶体结构),这些方法的生成质量大幅下降。
DynamicFlow尝试用MD模拟轨迹建模口袋动力学,但MD模拟计算昂贵、受力场参数限制,且可能引入模拟特有的伪影。
核心问题¶
如何在仅有apo蛋白构象的条件下,同时生成高亲和力的配体和合理的holo口袋构象,且不依赖于MD模拟数据?
方法详解¶
整体框架¶
Apo2Mol = 数据准备(apo-holo对齐+插值) + SE(3)等变层次图扩散模型 - 前向扩散: 配体加噪声、口袋从holo向apo线性插值 - 逆扩散: 从apo口袋+噪声配体出发,同时去噪配体+将口袋从apo变换到holo
学习目标: \(p(\mathcal{P}^H, \mathcal{M} | \mathcal{P}^A)\)
关键设计¶
-
基于实验数据的apo-holo对: 从PLINDER数据库过滤得到24,601个实验解析的apo-holo-配体三元组,100%序列同一性,分辨率≤2.5Å。不依赖MD模拟,避免模拟伪影。按时间划分训练/验证/测试集。
-
残基级构象插值: 口袋的构象变化建模为残基级别的平移 \(\mathbf{tr}\)、旋转 \(\mathbf{q}\)(四元数)和chi角更新 \(\boldsymbol{\mathcal{X}}\)。前向过程中,平移和chi角做线性插值加高斯噪声,旋转用Slerp球面线性插值。这保持了蛋白质的结构完整性。
-
层次图消息传递: 构建蛋白-配体复合物图,定义4类边:配体内、配体-残基、残基内、残基间。SE(3)等变注意力层同时更新位置坐标和化学特征。残基级预测通过SAGPooling从原子级聚合。
损失函数 / 训练策略¶
5项损失:配体位置MSE + 配体原子类型KL散度 + 口袋平移MSE + 口袋旋转L1+范数正则 + chi角余弦损失。Adam优化器,lr 5e-4,plateau调度。4×A100-80G训练,batch size 8,~150 epochs收敛。
实验关键数据¶
从apo结构生成配体(Table 1):
| 方法 | Vina min (Avg)↓ | Vina min (Med)↓ | QED (Avg)↑ | High Affinity↑ |
|---|---|---|---|---|
| IPDiff | -6.40 | -6.56 | 0.51 | 29.6% |
| DecompDiff | -6.37 | -6.40 | 0.56 | 34.3% |
| Apo2Mol | -6.79 | -7.09 | 0.59 | 42.7% |
与holo训练的baseline比较(Table 2,Apo2Mol仍从apo出发):
| 方法 | Vina min (Avg) | Vina min (Med) | High Affinity |
|---|---|---|---|
| IPDiff (holo) | -7.09 | -7.08 | 44.9% |
| Apo2Mol (apo→holo) | -7.86 | -8.03 | 52.9% |
消融实验要点¶
- 层次图 vs 单边类型: 去掉层次图→Vina min从-6.79降至-6.18,QED从0.587降至0.524
- 四元数 vs 旋转向量: 替换→Vina min从-6.79降至-6.51,四元数的数值稳定性和smooth插值优势明显
- 分子结构真实性: C-C键距离分布JSD:Apo2Mol 0.178 vs IPDiff 0.216 vs TargetDiff 0.273
- 口袋生成: 生成口袋的RMSD分布与实验holo分布JSD=0.317,有改进空间但总体趋势合理
- 生成分子有效性/新颖性: 有效性88.9%, 新颖性95.3%(vs IPDiff 87.6%, 91.1%)
亮点¶
- 问题定义准确: 将apo→holo构象变化纳入药物设计的生成框架是对SBDD的根本性改进,反映了真实药物发现场景
- 数据驱动 > 模拟驱动: 用24K实验解析结构替代MD模拟,避免力场偏差
- 残基级构象建模: 不直接预测原子坐标而是预测残基的刚体变换+chi角,保持蛋白结构物理合理性
- 四元数表示旋转: 避免了欧拉角/旋转向量的奇异性问题,Slerp插值在流形上做平滑过渡
局限性 / 可改进方向¶
- 口袋生成的分布偏移: JSD=0.317说明生成口袋与真实holo仍有差距,可能需要大规模蛋白结构预训练
- 未考虑水分子和离子: 实际结合位点中水分子常参与氢键网络,忽略这些可能影响结合亲和力预测
- 静态评估: 用Vina打分而非自由能扰动(FEP)或实验验证
- 数据集偏向: 基于PDB的实验结构有偏(偏向可结晶蛋白、已知药物靶点)
- 训练成本: 4×A100-80G,150 epochs
与相关工作的对比¶
| 方法 | 口袋假设 | 数据来源 | 与Apo2Mol的关键差异 |
|---|---|---|---|
| TargetDiff/DecompDiff/IPDiff | 刚性holo | 实验holo | 不考虑口袋动力学,apo条件下性能下降 |
| DynamicFlow | 动态(MD) | MD模拟轨迹 | 依赖模拟数据可能引入伪影,Apo2Mol用实验数据 |
| Pocket2Mol | 刚性holo | 实验holo | 自回归生成,不建模口袋变化 |
启发与关联¶
- 从apo→holo的构象建模思路可迁移到蛋白-蛋白对接(PPD)中的构象选择问题
- 层次图(原子→残基)的消息传递设计对蛋白质相关任务有通用参考价值
- 数据策略值得学习:从PLINDER这样的大规模数据库中高质量过滤,比自己做模拟性价比更高
评分¶
- 新颖性: ⭐⭐⭐⭐ 将口袋动力学纳入扩散模型框架是实质性创新,数据策略也新颖
- 实验充分度: ⭐⭐⭐⭐ 两种评估设定(apo vs holo基准)、消融分析、分子/口袋结构分析全面
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法推导严谨
- 价值: ⭐⭐⭐⭐ 对药物设计社区有显著价值,尤其是新靶点药物发现场景