Apo2Mol: 3D Molecule Generation via Dynamic Pocket-Aware Diffusion Models¶

会议: AAAI 2026
arXiv: 2511.14559v1
代码: https://github.com/AIDD-LiLab/Apo2Mol (有)
领域: AI for Science / 药物设计 / 扩散模型
关键词: 结构药物设计, apo-holo构象变化, 蛋白质口袋动力学, 3D分子生成, SE(3)等变

一句话总结¶

提出Apo2Mol，一个基于扩散的全原子框架，从蛋白质apo（未结合）构象出发，同时生成3D配体分子和对应的holo（结合态）口袋构象，使用24K实验解析的apo-holo结构对训练，在结合亲和力（Vina min -7.86）和药物类似性上达到SOTA。

背景与动机¶

基于结构的药物设计(SBDD)中，现有深度生成模型（TargetDiff、DecompDiff等）假设蛋白质口袋是刚性的，直接在holo构象上训练和生成。但蛋白质本质上是动态的——配体结合会引发口袋的构象重排。当仅有apo构象可用时（新靶点、无共晶体结构），这些方法的生成质量大幅下降。

DynamicFlow尝试用MD模拟轨迹建模口袋动力学，但MD模拟计算昂贵、受力场参数限制，且可能引入模拟特有的伪影。

核心问题¶

如何在仅有apo蛋白构象的条件下，同时生成高亲和力的配体和合理的holo口袋构象，且不依赖于MD模拟数据？

方法详解¶

整体框架¶

Apo2Mol = 数据准备（apo-holo对齐+插值） + SE(3)等变层次图扩散模型 - 前向扩散: 配体加噪声、口袋从holo向apo线性插值 - 逆扩散: 从apo口袋+噪声配体出发，同时去噪配体+将口袋从apo变换到holo

学习目标: \(p(\mathcal{P}^H, \mathcal{M} | \mathcal{P}^A)\)

关键设计¶

基于实验数据的apo-holo对: 从PLINDER数据库过滤得到24,601个实验解析的apo-holo-配体三元组，100%序列同一性，分辨率≤2.5Å。不依赖MD模拟，避免模拟伪影。按时间划分训练/验证/测试集。
残基级构象插值: 口袋的构象变化建模为残基级别的平移 \(\mathbf{tr}\)、旋转 \(\mathbf{q}\)（四元数）和chi角更新 \(\boldsymbol{\mathcal{X}}\)。前向过程中，平移和chi角做线性插值加高斯噪声，旋转用Slerp球面线性插值。这保持了蛋白质的结构完整性。
层次图消息传递: 构建蛋白-配体复合物图，定义4类边：配体内、配体-残基、残基内、残基间。SE(3)等变注意力层同时更新位置坐标和化学特征。残基级预测通过SAGPooling从原子级聚合。

损失函数 / 训练策略¶

5项损失：配体位置MSE + 配体原子类型KL散度 + 口袋平移MSE + 口袋旋转L1+范数正则 + chi角余弦损失。Adam优化器，lr 5e-4，plateau调度。4×A100-80G训练，batch size 8，~150 epochs收敛。

实验关键数据¶

从apo结构生成配体（Table 1）:

方法	Vina min (Avg)↓	Vina min (Med)↓	QED (Avg)↑	High Affinity↑
IPDiff	-6.40	-6.56	0.51	29.6%
DecompDiff	-6.37	-6.40	0.56	34.3%
Apo2Mol	-6.79	-7.09	0.59	42.7%

与holo训练的baseline比较（Table 2，Apo2Mol仍从apo出发）:

方法	Vina min (Avg)	Vina min (Med)	High Affinity
IPDiff (holo)	-7.09	-7.08	44.9%
Apo2Mol (apo→holo)	-7.86	-8.03	52.9%

消融实验要点¶

层次图 vs 单边类型: 去掉层次图→Vina min从-6.79降至-6.18，QED从0.587降至0.524
四元数 vs 旋转向量: 替换→Vina min从-6.79降至-6.51，四元数的数值稳定性和smooth插值优势明显
分子结构真实性: C-C键距离分布JSD：Apo2Mol 0.178 vs IPDiff 0.216 vs TargetDiff 0.273
口袋生成: 生成口袋的RMSD分布与实验holo分布JSD=0.317，有改进空间但总体趋势合理
生成分子有效性/新颖性: 有效性88.9%, 新颖性95.3%（vs IPDiff 87.6%, 91.1%）

亮点¶

问题定义准确: 将apo→holo构象变化纳入药物设计的生成框架是对SBDD的根本性改进，反映了真实药物发现场景
数据驱动 > 模拟驱动: 用24K实验解析结构替代MD模拟，避免力场偏差
残基级构象建模: 不直接预测原子坐标而是预测残基的刚体变换+chi角，保持蛋白结构物理合理性
四元数表示旋转: 避免了欧拉角/旋转向量的奇异性问题，Slerp插值在流形上做平滑过渡

局限性 / 可改进方向¶

口袋生成的分布偏移: JSD=0.317说明生成口袋与真实holo仍有差距，可能需要大规模蛋白结构预训练
未考虑水分子和离子: 实际结合位点中水分子常参与氢键网络，忽略这些可能影响结合亲和力预测
静态评估: 用Vina打分而非自由能扰动(FEP)或实验验证
数据集偏向: 基于PDB的实验结构有偏（偏向可结晶蛋白、已知药物靶点）
训练成本: 4×A100-80G，150 epochs

与相关工作的对比¶

方法	口袋假设	数据来源	与Apo2Mol的关键差异
TargetDiff/DecompDiff/IPDiff	刚性holo	实验holo	不考虑口袋动力学，apo条件下性能下降
DynamicFlow	动态（MD）	MD模拟轨迹	依赖模拟数据可能引入伪影，Apo2Mol用实验数据
Pocket2Mol	刚性holo	实验holo	自回归生成，不建模口袋变化

启发与关联¶

从apo→holo的构象建模思路可迁移到蛋白-蛋白对接（PPD）中的构象选择问题
层次图（原子→残基）的消息传递设计对蛋白质相关任务有通用参考价值
数据策略值得学习：从PLINDER这样的大规模数据库中高质量过滤，比自己做模拟性价比更高

评分¶

新颖性: ⭐⭐⭐⭐ 将口袋动力学纳入扩散模型框架是实质性创新，数据策略也新颖
实验充分度: ⭐⭐⭐⭐ 两种评估设定(apo vs holo基准)、消融分析、分子/口袋结构分析全面
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法推导严谨
价值: ⭐⭐⭐⭐ 对药物设计社区有显著价值，尤其是新靶点药物发现场景