PolyConf: Unlocking Polymer Conformation Generation through Hierarchical Generative Models¶
会议: ICML 2025
arXiv: 2504.08859
代码: https://polyconf-icml25.github.io(代码、模型、数据均公开)
领域: 分子建模 / AI4Science
关键词: 聚合物构象生成, 层次化生成模型, 掩码自回归模型, SO(3)扩散模型, 分子动力学
一句话总结¶
提出 PolyConf——首个专为聚合物构象生成设计的层次化生成框架:Phase 1 用掩码自回归模型(MAR)+ 扩散过程在随机顺序下生成各重复单元的局部构象,Phase 2 用 SO(3) 扩散模型生成朝向变换以将局部构象组装为完整聚合物构象;同时构建了首个聚合物构象基准 PolyBench(5万+聚合物,~2000原子/构象),在所有结构和能量指标上均大幅超越现有方法 25%+。
研究背景与动机¶
聚合物(polymer)是由大量相同或相似单体通过共价键结合形成的大分子,在包装材料、电子器件等领域有广泛应用。聚合物构象生成——即在给定 2D 聚合物分子图的条件下生成稳定的 3D 聚合物结构——是研究聚合物性质的基础出发点。
现有构象生成方法面临的核心挑战:
小分子方法难以扩展:GeoDiff、TorsionalDiff 等方法设计用于小分子(原子数较少),直接应用于含数千原子的聚合物时性能显著下降
蛋白质方法不适用:蛋白质有统一的骨架框架(N-Cα-C-O 结构)和强方向性分子内相互作用,聚合物缺乏这些先验约束,具有更高的柔性和更少的有序性
数据稀缺:传统分子动力学(MD)模拟计算成本极高,导致聚合物构象数据集严重匮乏
重复单元构象多样:虽然同一聚合物的重复单元共享相同的 SMILES 字符串,但各单元在 3D 空间中的排列差异显著,不能简单地将聚合物建模为单一预定义重复单元构象的刚性组装
方法详解¶
整体框架¶
PolyConf 采用层次化生成框架,核心思想是将聚合物构象分解为两层:
其中 \(\mathcal{C}^u = \{C_i^u\}_{i=1}^{N_u}\) 是重复单元构象集合,\(\mathcal{O} = \{\mathcal{O}_i\}_{i=1}^{N_u}\) 是对应的朝向变换集合。整个生成过程分为两阶段:
- Phase 1:基于 2D 分子图 \(\mathcal{G}\) 生成各重复单元的局部构象 \(\mathcal{C}^u\)
- Phase 2:在已知 \(\mathcal{G}\) 和 \(\mathcal{C}^u\) 的条件下,生成朝向变换 \(\mathcal{O}\) 以组装完整构象
基于帧的聚合物表示(Frame-based Representation)¶
每个聚合物 \(N\) 个原子表示为 2D 图 \(\mathcal{G}=(\mathcal{V}, \mathcal{E})\),构象为 \(C \in \mathbb{R}^{N \times 3}\)。关键设计:
- 扩展标准重复单元定义:将相邻重复单元的两个关键原子(atom-1 和 atom-4)纳入当前单元的构象中,每个单元原子数为 \(\frac{N}{N_u}+2\)
- 受蛋白质残基建模策略启发,从重复单元构象中提取帧(frame)
- 朝向变换 \(\mathcal{O}_i = (R_i, t_i)\):旋转 \(R_i \in \mathbb{R}^{3\times3}\) 通过 Gram-Schmidt 正交化从关键原子向量计算,平移 \(t_i \in \mathbb{R}^3\) 对应 atom-3 的 3D 坐标
- 相邻重复单元在键合原子处自然重叠(atom-1 与上一单元的 atom-3 对齐),因此 Phase 2 只需生成旋转,平移可由重叠原子坐标直接推导
Phase 1:重复单元构象生成¶
该阶段集成了三个核心模块:
(1) 多模态重复单元编码器¶
- 2D 编码器 \(\mathcal{M}_{2d}\):采用 MolCLR 架构,编码整个聚合物图 \(\mathcal{G}\),得到 \(X^{2d} \in \mathbb{R}^{N_u \times D_{2d}}\)
- 3D 编码器 \(\mathcal{M}_{3d}\):采用 Uni-Mol(SE(3)-不变),编码每个重复单元构象 \(C_i^u\),得到 \(X_i^{3d} \in \mathbb{R}^{1 \times D_{3d}}\)
- 将 2D 和 3D 嵌入拼接得到多模态嵌入 \(X^u \in \mathbb{R}^{N_u \times D_u}\)
- 该编码器在 Phase 1 中可训练,在 Phase 2 中冻结
(2) 掩码自回归建模(MAR)¶
以随机顺序生成重复单元构象,捕获复杂交互而非简单序列依赖:
训练时:
- 定义随机排列 \(\pi\),随机采样遮掩率 \(\tau \in [0,1]\)
- 将遮掩后的已知嵌入 \(X_{\text{known}}^u\) 送入 MAR 编码器 \(\Phi\)(标准 Transformer + 双向注意力)
- MAR 解码器 \(\Psi\) 输出被遮掩重复单元的表示 \(Z_{\text{mask}}^u \in \mathbb{R}^{\tau N_u \times D_m}\)
(3) 扩散损失¶
使用扩散模型表示被遮掩重复单元构象的条件概率分布。扩散过程定义在扭转角空间:
- \(z^u\) 是 \(Z_{\text{mask}}^u\) 中对应行的解码表示,作为扩散过程的条件
- 去噪网络 \(\epsilon_\theta\) 采用 TorsionalDiff 的架构
- 有效整合了自回归建模和扩散过程的能力
Phase 2:朝向变换生成¶
SO(3) 扩散生成旋转¶
由于重叠原子的存在,只需生成旋转矩阵 \(R\),平移可由重叠原子坐标直接推导:
- 去噪网络 \(\varphi\) 采用与 FrameDiff (Yim et al., 2023) 相同的架构
- 条件信息 \(E^u \in \mathbb{R}^{N_u \times D_e}\) 来自 MAR 编码器输出(代表 \(\mathcal{G}\) 和 \(\mathcal{C}^u\) 的信息)
- \(R^{(t)}\) 通过 SO(3) 上的前向扩散获得,\(T^{(t)}\) 由施加 \(R^{(t)}\) 后重叠原子对齐计算
损失函数 / 训练策略¶
Phase 1 损失(扭转角空间扩散):
Phase 2 损失(SO(3) 旋转预测):
两阶段训练:Phase 1 训练编码器 + MAR + 扩散;Phase 2 冻结编码器,仅训练 SO(3) 扩散模型。
组装过程¶
- 将生成的重复单元构象 \(\hat{C}_i^u\) 通过逆变换回标准坐标系
- 施加生成的旋转 \(\hat{R}_i\) 得到旋转后构象 \(\hat{C}_i^{u,\text{rot}}\)
- 通过对齐重叠原子计算平移 \(\hat{t}_i\)
- 拼接去除重叠原子后得到完整聚合物构象 \(\hat{C} \in \mathbb{R}^{N \times 3}\)
实验关键数据¶
数据集 PolyBench¶
首个聚合物构象基准,通过分子动力学模拟构建: - 50,000+ 聚合物,每个构象约 2,000 原子 - NVT 集成,298K/1atm,5ns (5M步) MD 模拟 - 力场:General AMBER Force Field (GAFF),GROMACS 引擎 - 划分:训练 ~46k,验证 ~5k,测试 ~2k - 重复单元数:大部分 20-100,少部分超过 100
主实验¶
| 方法 | S-MAT-R (Mean/Med) | S-MAT-P (Mean/Med) | E-MAT-R (Mean/Med) | E-MAT-P (Mean/Med) |
|---|---|---|---|---|
| GeoDiff | 93.119 / 89.767 | 95.259 / 91.869 | 21.249 / 18.106 | 64.871 / 58.711 |
| TorsionalDiff | 53.210 / 38.710 | 70.679 / 60.744 | 2.605 / 1.034 | 8.402 / 6.851 |
| MCF | 248.432 / 242.866 | 258.891 / 253.239 | — | — |
| ET-Flow | 94.057 / 90.475 | 96.896 / 92.877 | 6.733 / 5.186 | 53.528 / 30.125 |
| PolyConf | 35.021 / 24.279 | 46.861 / 37.996 | 0.933 / 0.359 | 6.191 / 4.122 |
- 比最佳基线 TorsionalDiff 在所有指标上提升超 25%
- 注意 TorsionalDiff 还额外使用了初始聚合物结构作为输入(biased advantage)
可扩展性实验(重复单元数翻倍,约 4000 原子)¶
| 方法 | S-MAT-R (Mean/Med) | S-MAT-P (Mean/Med) | E-MAT-R (Mean/Med) | E-MAT-P (Mean/Med) |
|---|---|---|---|---|
| GeoDiff | 184.668 / 175.607 | 186.861 / 177.645 | 52.614 / 47.872 | 112.883 / 105.197 |
| TorsionalDiff | 119.289 / 94.075 | 146.816 / 126.932 | 5.219 / 2.216 | 11.692 / 9.227 |
| ET-Flow | 186.132 / 176.370 | 188.725 / 178.977 | 15.331 / 12.465 | 65.116 / 41.642 |
| PolyConf | 65.040 / 41.992 | 84.626 / 64.445 | 1.259 / 0.609 | 5.785 / 4.434 |
- 能量指标相比 TorsionalDiff 提升超 50%
- 得益于 MAR 建模,PolyConf 展现出优异的可扩展性
效率对比¶
| 方法 | 平均生成时间 |
|---|---|
| GeoDiff | 3.54 min |
| MCF | 1.12 min |
| TorsionalDiff | 0.45 min |
| PolyConf | 0.40 min |
关键发现¶
- 层次化分解有效:将聚合物构象分解为局部构象 + 朝向变换的两阶段策略,比直接端到端生成整体构象效果显著更好
- 随机顺序生成优于固定顺序:MAR 的随机排列机制捕获了重复单元间的复杂交互
- 基线方法严重失效:小分子方法(GeoDiff、ET-Flow)在聚合物上性能大幅下降,MCF 甚至无法计算能量指标
- 生成质量的可视化证据:PolyConf 生成的构象更接近参考构象的展开松弛状态,而 TorsionalDiff 即便有初始结构先验仍难以捕捉
亮点与洞察¶
- 开创性的问题定义:首次将聚合物构象生成作为独立任务提出,填补了小分子与蛋白质之间的重要空白
- 优雅的层次化分解:利用聚合物的重复单元结构特性,将复杂大分子问题自然分解为可处理的子问题
- MAR + Diffusion 的有效结合:将最新的掩码自回归范式与扩散过程融合,在构象生成中首次应用
- SO(3) 扩散的巧妙应用:利用重叠原子约束,将 SE(3) 变换简化为仅需生成旋转,降低了问题复杂度
- 完整的基准贡献:不仅提出方法,还投入大量资源构建了首个聚合物构象数据集和标准化评估协议
局限与展望¶
- 仅限线性均聚物:当前工作仅关注由相同单体组成的线性聚合物,未涉及共聚物、混合物等更复杂体系
- 未考虑 2D 拓扑结构:如交叉链接、分支等聚合物结构暂未建模
- 力场精度限制:使用 GAFF 力场而非 DFT 计算(受限于计算成本),在性质/能量预测精度上有一定局限
- 可探索流匹配等新范式:作者提到未来可引入 flow-based 生成模型进一步改进
- 缺少下游任务验证:未评估生成构象在聚合物性质预测等实际应用中的效果
相关工作与启发¶
- 小分子构象生成:GeoDiff(欧氏空间扩散)、TorsionalDiff(扭转角扩散)、MCF、ET-Flow → 聚合物规模和柔性使其失效
- 蛋白质构象生成:AlphaFold 系列、FrameDiff → 依赖蛋白质特有的进化信息和骨架约束,不适用于聚合物
- 关键启发:MAR 范式 (Li et al., 2024) 及 SE(3) 扩散 (Yim et al., 2023) 的组合应用;聚合物的重复性结构特征天然适合层次化建模
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首个聚合物构象生成方法,问题定义和层次化分解均有很强原创性
- 实验充分度: ⭐⭐⭐⭐ — 多维度评估(结构/能量/效率/可扩展性),但缺少消融实验细节
- 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,公式推导流畅,图示直观
- 价值: ⭐⭐⭐⭐⭐ — 开辟新领域,代码数据全开源,对聚合物建模研究影响深远
相关论文¶
- [ICML 2025] Aligning Protein Conformation Ensemble Generation with Physical Feedback
- [ICML 2025] CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models
- [ICML 2025] DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models
- [CVPR 2026] Unlocking Positive Transfer in Incrementally Learning Surgical Instruments: A Self-reflection Hierarchical Prompt Framework
- [ICML 2025] ComRecGC: Global Graph Counterfactual Explainer through Common Recourse