跳转至

Apo2Mol: 3D Molecule Generation via Dynamic Pocket-Aware Diffusion Models

会议: AAAI 2026
arXiv: 2511.14559v1
代码: https://github.com/AIDD-LiLab/Apo2Mol (有)
领域: AI for Science / 药物设计 / 扩散模型
关键词: 结构药物设计, apo-holo构象变化, 蛋白质口袋动力学, 3D分子生成, SE(3)等变

一句话总结

提出Apo2Mol,一个基于扩散的全原子框架,从蛋白质apo(未结合)构象出发,同时生成3D配体分子和对应的holo(结合态)口袋构象,使用24K实验解析的apo-holo结构对训练,在结合亲和力(Vina min -7.86)和药物类似性上达到SOTA。

背景与动机

基于结构的药物设计(SBDD)中,现有深度生成模型(TargetDiff、DecompDiff等)假设蛋白质口袋是刚性的,直接在holo构象上训练和生成。但蛋白质本质上是动态的——配体结合会引发口袋的构象重排。当仅有apo构象可用时(新靶点、无共晶体结构),这些方法的生成质量大幅下降。

DynamicFlow尝试用MD模拟轨迹建模口袋动力学,但MD模拟计算昂贵、受力场参数限制,且可能引入模拟特有的伪影。

核心问题

如何在仅有apo蛋白构象的条件下,同时生成高亲和力的配体和合理的holo口袋构象,且不依赖于MD模拟数据?

方法详解

整体框架

Apo2Mol = 数据准备(apo-holo对齐+插值) + SE(3)等变层次图扩散模型 - 前向扩散: 配体加噪声、口袋从holo向apo线性插值 - 逆扩散: 从apo口袋+噪声配体出发,同时去噪配体+将口袋从apo变换到holo

学习目标: \(p(\mathcal{P}^H, \mathcal{M} | \mathcal{P}^A)\)

关键设计

  1. 基于实验数据的apo-holo对: 从PLINDER数据库过滤得到24,601个实验解析的apo-holo-配体三元组,100%序列同一性,分辨率≤2.5Å。不依赖MD模拟,避免模拟伪影。按时间划分训练/验证/测试集。

  2. 残基级构象插值: 口袋的构象变化建模为残基级别的平移 \(\mathbf{tr}\)、旋转 \(\mathbf{q}\)(四元数)和chi角更新 \(\boldsymbol{\mathcal{X}}\)。前向过程中,平移和chi角做线性插值加高斯噪声,旋转用Slerp球面线性插值。这保持了蛋白质的结构完整性。

  3. 层次图消息传递: 构建蛋白-配体复合物图,定义4类边:配体内、配体-残基、残基内、残基间。SE(3)等变注意力层同时更新位置坐标和化学特征。残基级预测通过SAGPooling从原子级聚合。

损失函数 / 训练策略

5项损失:配体位置MSE + 配体原子类型KL散度 + 口袋平移MSE + 口袋旋转L1+范数正则 + chi角余弦损失。Adam优化器,lr 5e-4,plateau调度。4×A100-80G训练,batch size 8,~150 epochs收敛。

实验关键数据

从apo结构生成配体(Table 1):

方法 Vina min (Avg)↓ Vina min (Med)↓ QED (Avg)↑ High Affinity↑
IPDiff -6.40 -6.56 0.51 29.6%
DecompDiff -6.37 -6.40 0.56 34.3%
Apo2Mol -6.79 -7.09 0.59 42.7%

与holo训练的baseline比较(Table 2,Apo2Mol仍从apo出发):

方法 Vina min (Avg) Vina min (Med) High Affinity
IPDiff (holo) -7.09 -7.08 44.9%
Apo2Mol (apo→holo) -7.86 -8.03 52.9%

消融实验要点

  • 层次图 vs 单边类型: 去掉层次图→Vina min从-6.79降至-6.18,QED从0.587降至0.524
  • 四元数 vs 旋转向量: 替换→Vina min从-6.79降至-6.51,四元数的数值稳定性和smooth插值优势明显
  • 分子结构真实性: C-C键距离分布JSD:Apo2Mol 0.178 vs IPDiff 0.216 vs TargetDiff 0.273
  • 口袋生成: 生成口袋的RMSD分布与实验holo分布JSD=0.317,有改进空间但总体趋势合理
  • 生成分子有效性/新颖性: 有效性88.9%, 新颖性95.3%(vs IPDiff 87.6%, 91.1%)

亮点

  • 问题定义准确: 将apo→holo构象变化纳入药物设计的生成框架是对SBDD的根本性改进,反映了真实药物发现场景
  • 数据驱动 > 模拟驱动: 用24K实验解析结构替代MD模拟,避免力场偏差
  • 残基级构象建模: 不直接预测原子坐标而是预测残基的刚体变换+chi角,保持蛋白结构物理合理性
  • 四元数表示旋转: 避免了欧拉角/旋转向量的奇异性问题,Slerp插值在流形上做平滑过渡

局限性 / 可改进方向

  • 口袋生成的分布偏移: JSD=0.317说明生成口袋与真实holo仍有差距,可能需要大规模蛋白结构预训练
  • 未考虑水分子和离子: 实际结合位点中水分子常参与氢键网络,忽略这些可能影响结合亲和力预测
  • 静态评估: 用Vina打分而非自由能扰动(FEP)或实验验证
  • 数据集偏向: 基于PDB的实验结构有偏(偏向可结晶蛋白、已知药物靶点)
  • 训练成本: 4×A100-80G,150 epochs

与相关工作的对比

方法 口袋假设 数据来源 与Apo2Mol的关键差异
TargetDiff/DecompDiff/IPDiff 刚性holo 实验holo 不考虑口袋动力学,apo条件下性能下降
DynamicFlow 动态(MD) MD模拟轨迹 依赖模拟数据可能引入伪影,Apo2Mol用实验数据
Pocket2Mol 刚性holo 实验holo 自回归生成,不建模口袋变化

启发与关联

  • 从apo→holo的构象建模思路可迁移到蛋白-蛋白对接(PPD)中的构象选择问题
  • 层次图(原子→残基)的消息传递设计对蛋白质相关任务有通用参考价值
  • 数据策略值得学习:从PLINDER这样的大规模数据库中高质量过滤,比自己做模拟性价比更高

评分

  • 新颖性: ⭐⭐⭐⭐ 将口袋动力学纳入扩散模型框架是实质性创新,数据策略也新颖
  • 实验充分度: ⭐⭐⭐⭐ 两种评估设定(apo vs holo基准)、消融分析、分子/口袋结构分析全面
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法推导严谨
  • 价值: ⭐⭐⭐⭐ 对药物设计社区有显著价值,尤其是新靶点药物发现场景