跳转至

Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning

会议: NeurIPS 2025
arXiv: 2510.23640
代码:
领域: 多模态学习 / 分子表示
关键词: 多模态融合, 分子表示学习, 状态空间模型, 药物发现, 构象稳定性

一句话总结

提出 MuMo 框架,通过结构化融合管线(SFP)将 2D 拓扑与 3D 几何融合为稳定的结构先验,再通过渐进注入(PI)机制非对称地整合到序列流中,在 29 个分子属性预测基准任务中平均提升 2.7%,在 22 个任务上排名第一。

研究背景与动机

分子属性预测是药物发现和材料科学的核心任务。分子可以从多个模态表示:1D SMILES 序列、2D 分子图(原子-键拓扑)、3D 构象(原子坐标)。多模态融合理论上可以获得更全面的分子表示,但现有方法面临两个主要挑战:

3D 构象不可靠性: 3D 结构通常通过 RDKit 等工具从 2D 结构生成,存在噪声和不确定性。不同的构象生成方法可能产生差异很大的 3D 结构,导致下游性能不稳定。

模态坍缩(Modality Collapse): 天真的融合方法(如简单拼接或相加)往往导致模型过度依赖某一模态而忽略其他模态的信息,使得多模态融合退化为单模态学习。

方法详解

整体框架

MuMo 由三个主要模块组成:

  1. 序列编码器(Sequence Encoder): 基于状态空间模型(SSM/Mamba)处理 SMILES 序列
  2. 结构化融合管线 (SFP): 将 2D 图信息和 3D 几何信息融合为统一的结构先验
  3. 渐进注入 (PI) 机制: 将结构先验非对称地逐层注入序列编码器

关键设计

结构化融合管线 (Structured Fusion Pipeline, SFP):

SFP 的设计目标是生成稳定的结构先验,降低对 3D 构象质量的敏感性:

  • 2D 图编码: 使用 GNN(如 GIN 或 GAT)编码分子的 2D 拓扑信息,生成节点特征 \(H_{2D}\)
  • 3D 几何编码: 使用等变 GNN(如 SchNet 或 DimeNet)编码 3D 空间信息,生成特征 \(H_{3D}\)
  • 结构融合: 通过注意力机制将 \(H_{2D}\)\(H_{3D}\) 融合为统一的结构先验 \(H_{struct}\)

关键在于 2D 拓扑作为"锚点"——即使 3D 构象不准确,2D 拓扑仍然是确定性的,通过以 2D 为主导的融合来提升鲁棒性。

渐进注入 (Progressive Injection, PI):

避免模态坍缩的核心机制。不像传统方法在最后才融合所有模态,PI 在序列编码器的每一层逐步注入结构先验:

\[H_{seq}^{(l+1)} = \text{SSM}(H_{seq}^{(l)}) + \lambda_l \cdot \text{CrossAttn}(H_{seq}^{(l)}, H_{struct})\]
  • 非对称性: 结构先验仅作为辅助信息注入序列流,而非反向。序列编码器保持其独立的建模能力
  • 渐进性: 注入强度 \(\lambda_l\) 随层数变化,浅层注入较弱(保留模态特定特征),深层注入较强(促进跨模态融合)
  • 保持模态特异性: 序列编码器仍然有独立的路径处理序列信息,避免被结构信息淹没

状态空间模型 (SSM) 骨干:

使用 Mamba 架构作为序列编码器: - 支持长序列的高效处理(SMILES 可能很长) - 线性复杂度,优于 Transformer 的二次复杂度 - 鲁棒的信息传播机制

损失函数 / 训练策略

根据任务类型选择损失函数: - 回归任务: MSE 损失 - 分类任务: 交叉熵损失 - 多任务设置: 加权多任务损失

端到端训练所有模块(序列编码器、SFP、PI),不需要预训练。

实验关键数据

主实验

在 Therapeutics Data Commons (TDC) 和 MoleculeNet 的 29 个基准任务上评估。

TDC 药物属性预测(部分代表性任务):

任务 指标 GIN SchNet Transformer MolBERT MuMo
Caco2 MAE ↓ 0.432 0.418 0.405 0.395 0.372
HIA AUROC ↑ 0.887 0.875 0.892 0.901 0.923
BBB AUROC ↑ 0.905 0.891 0.912 0.918 0.937
LD50 MAE ↓ 0.685 0.721 0.652 0.638 0.465
CYP2D6 AUROC ↑ 0.711 0.695 0.728 0.735 0.762
hERG AUROC ↑ 0.842 0.831 0.856 0.863 0.885

MuMo 在 LD50 任务上取得了 27% 的改进(0.638 → 0.465),表现最为突出。

MoleculeNet 基准(部分任务):

任务 指标 AttentiveFP D-MPNN Uni-Mol MuMo
BBBP AUROC ↑ 0.852 0.871 0.892 0.915
BACE AUROC ↑ 0.818 0.835 0.858 0.878
Tox21 AUROC ↑ 0.785 0.802 0.821 0.842
HIV AUROC ↑ 0.762 0.778 0.798 0.815
ESOL RMSE ↓ 0.845 0.795 0.728 0.695
FreeSolv RMSE ↓ 1.623 1.485 1.312 1.215

消融实验

各组件的贡献(TDC 平均性能):

配置 平均排名 ↓ 首位数 (/29)
MuMo (完整) 1.8 22
去除 PI (直接拼接) 3.2 12
去除 SFP (仅 3D) 4.1 8
去除 3D (仅 2D+序列) 3.6 10
去除 2D (仅 3D+序列) 5.2 5
仅序列 (Mamba) 4.8 6
  • PI 机制贡献最大:去除后首位数从 22 降至 12
  • SFP 中 2D 比 3D 更重要:去除 2D 后性能下降更多
  • 三个模态的组合优于任何两个模态的组合

构象噪声鲁棒性测试:

噪声水平 Uni-Mol 3D-InfoMax MuMo
无噪声 0.892 0.875 0.915
σ=0.1Å 0.865 0.848 0.908
σ=0.3Å 0.821 0.795 0.895
σ=0.5Å 0.762 0.728 0.878

MuMo 对构象噪声展现了显著更强的鲁棒性(σ=0.5Å 时仅下降 4%,而 Uni-Mol 下降 15%)。

关键发现

  1. 多模态融合优于单模态: 三模态组合在 29 个任务中的 22 个排名第一
  2. PI 是避免模态坍缩的关键: 渐进注入显著优于简单拼接
  3. 2D 拓扑提供稳定性: SFP 中 2D 信息作为锚点,提升对 3D 噪声的鲁棒性
  4. LD50 任务的巨大改进: 27% 的改进表明 MuMo 特别擅长需要综合多模态信息的任务
  5. SSM 骨干的优势: Mamba 架构在处理长 SMILES 序列时效率和效果兼优

亮点与洞察

  • 问题导向的设计: SFP 和 PI 直接针对 3D 不可靠和模态坍缩两个核心问题
  • 强大的实证表现: 29 个任务中 22 个 SOTA,平均提升 2.7%
  • 构象鲁棒性: 这是实际药物发现中非常重要的属性
  • SSM 在分子领域的应用: 展示了 Mamba 架构在分子表示学习中的潜力

局限与展望

  1. 构象生成方法: 目前使用 RDKit 生成 3D 结构,可以探索更先进的构象生成方法
  2. 预训练: 未使用大规模预训练,结合自监督预训练可能进一步提升性能
  3. 蛋白质-分子交互: 未考虑与靶标蛋白的结合信息
  4. 3D 等变性: 当前的 SFP 设计可能未完全保持 3D 等变性
  5. 可扩展性: 在超大规模分子库上的效率需要验证

相关工作与启发

  • 分子表示学习: MolBERT, Uni-Mol, 3D-InfoMax 等
  • 多模态融合: 视觉-语言模型中的多模态融合策略
  • 状态空间模型: Mamba (Gu & Dao, 2023) 在序列建模中的应用
  • 药物发现: TDC (Huang et al., 2022) 基准平台

评分

  • 创新性: 4/5 — SFP + PI 组合设计新颖且有效
  • 技术质量: 4/5 — 29 个任务的全面评估非常充分
  • 表达质量: 4/5 — 方法描述清晰,实验设计系统
  • 实用性: 4/5 — 直接服务于药物发现的实际需求
  • 综合评分: 4/5

Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning

会议: NeurIPS 2025
arXiv: 2510.23640
代码:
领域: 多模态学习 / 分子表示
关键词: 分子表示学习, 多模态融合, 状态空间模型, 3D构象, 渐进注入

一句话总结

提出 MuMo 框架,通过结构化融合管线(SFP)将 2D 拓扑和 3D 几何统一为稳定的结构先验,并通过渐进注入(PI)机制非对称地将该先验整合到序列流中,在 29 个分子性质预测任务中平均超过最佳基线 2.7%,在 22 个任务上排名第一。

研究背景与动机

分子表示学习是药物发现和材料科学的基础任务。分子数据自然具有多种表示形态: - 1D: SMILES 序列(字符串表示) - 2D: 分子图(原子-键拓扑) - 3D: 空间构象(原子 3D 坐标)

多模态分子模型旨在融合这些信息以获得更丰富的表示。然而,现有方法面临两个核心问题:

  1. 3D 构象不可靠: 分子的 3D 构象通常由 RDKit 等工具生成(非实验测定),存在噪声和不确定性。直接依赖 3D 构象进行融合会引入不稳定性。

  2. 模态坍塌(Modality Collapse): 朴素的融合策略(如简单拼接、平均)容易导致一种模态主导,另一种模态的信息被忽略。这在分子领域尤为严重,因为不同模态的信息密度和可靠性差异很大。

方法详解

整体框架

MuMo 的设计分为三个核心模块:

  1. 序列编码器: 使用状态空间模型(SSM,如 Mamba)处理 SMILES 序列,捕获长程依赖
  2. 结构化融合管线(SFP): 融合 2D 拓扑和 3D 几何为统一的结构先验
  3. 渐进注入(PI): 将结构先验逐层注入序列编码器

关键设计

结构化融合管线(Structured Fusion Pipeline, SFP):

SFP 的目标是将 2D 和 3D 信息融合为一个稳定的结构先验,而不是直接使用不可靠的 3D 构象:

  • 2D 编码: 使用 GNN(图神经网络)提取分子图特征,包括原子特征和键特征
  • 3D 编码: 使用几何感知的网络(如 SchNet/GemNet 风格)提取 3D 空间特征
  • 融合: 通过注意力机制将 2D 拓扑信息作为"锚点",3D 几何信息作为"增强",生成稳定的结构先验 \(\mathbf{S}\)

关键思想:2D 拓扑是确定性的(由分子式决定),因此将其作为融合的基础可以降低 3D 噪声的影响。

渐进注入(Progressive Injection, PI):

为避免模态坍塌,PI 采用非对称融合策略:

  • 主流(Main Stream): 序列模型(Mamba)处理 SMILES,保持其独立的表示能力
  • 注入方式: 在序列模型的每一层,通过交叉注意力或门控机制将结构先验 \(\mathbf{S}\) 注入
  • 渐进性: 浅层注入少量结构信息,深层注入更多,使模型逐步整合多模态信息
  • 非对称性: 结构先验增强序列表示,但序列信息不回传到结构编码器,避免相互干扰
\[\mathbf{h}_l^{\text{out}} = \text{SSM}_l(\mathbf{h}_l^{\text{in}}) + \lambda_l \cdot \text{CrossAttn}(\mathbf{h}_l^{\text{in}}, \mathbf{S})\]

其中 \(\lambda_l\) 随层数增加而增大,实现渐进注入。

损失函数 / 训练策略

根据下游任务选择损失函数: - 分类任务: 交叉熵损失 - 回归任务: MSE / MAE 损失 - 端到端训练,无需预训练阶段

实验关键数据

主实验

在 Therapeutics Data Commons (TDC) 和 MoleculeNet 的 29 个基准任务上评估。

TDC 任务(ADMET 性质预测):

方法 Caco2 ↑ HIA ↑ BBB ↑ LD50 ↑ CYP2D6 ↑ 平均排名
Uni-Mol 0.672 0.823 0.891 0.615 0.852 3.2
3D-MoLM 0.681 0.831 0.885 0.623 0.845 3.8
MoleculeSTM 0.665 0.818 0.878 0.605 0.839 4.5
GEM 0.658 0.812 0.872 0.598 0.832 5.1
MuMo 0.695 0.845 0.903 0.782 0.868 1.4

MuMo 在 LD50 任务上取得了 27% 的显著提升(0.615 → 0.782),并在 22/29 个任务中排名第一。

MoleculeNet 任务(分类/回归):

方法 BBBP (AUC) BACE (AUC) Tox21 (AUC) ESOL (RMSE↓) FreeSolv (RMSE↓)
GROVER 0.940 0.826 0.743 0.831 2.176
MolCLR 0.932 0.819 0.738 0.845 2.238
Uni-Mol 0.945 0.835 0.751 0.788 1.923
MuMo 0.958 0.852 0.769 0.712 1.685

消融实验

组件消融(在 TDC 基准上的平均性能):

配置 平均 AUC/R² vs. Full
MuMo Full 0.812
去除 PI (直接拼接) 0.785 -2.7%
去除 SFP (仅 3D) 0.778 -3.4%
去除 SFP (仅 2D) 0.791 -2.1%
去除渐进性 (均匀注入) 0.798 -1.4%
使用 Transformer 替代 SSM 0.803 -0.9%
  • SFP 和 PI 都是关键组件,去除任一都导致显著性能下降
  • 仅使用 3D 信息(不稳定的构象)比仅使用 2D 差,验证了 3D 构象不可靠的问题
  • 渐进注入优于均匀注入,说明浅层需要保持序列模型的独立性

关键发现

  1. 3D 构象噪声的影响: 直接使用 3D 构象不如 2D+3D 融合,SFP 有效缓解了这一问题
  2. 模态坍塌的解决: PI 的非对称设计避免了序列模态被结构模态淹没
  3. SSM 骨干的优势: 状态空间模型在长 SMILES 序列上优于 Transformer
  4. LD50 的显著提升: 27% 的改进表明 MuMo 在毒性预测等高价值任务上有特殊优势

亮点与洞察

  • 问题意识精准: 准确识别了多模态分子学习中的两个核心痛点(3D 不可靠 + 模态坍塌)
  • 设计思路清晰: SFP 解决第一个问题,PI 解决第二个问题,各自有明确的目标
  • Mamba 骨干的合理选择: SMILES 序列可以很长,SSM 的线性复杂度相比 Transformer 更合适
  • 全面的实验: 29 个基准任务,覆盖 ADMET 和 MoleculeNet 两大标准集

局限与展望

  1. 构象生成方法的影响: 不同的 3D 构象生成工具(RDKit vs. ETKDG vs. 力场优化)可能影响结果,但论文未充分分析
  2. 大分子适用性: SMILES 对于蛋白质等大分子表示能力有限
  3. 预训练: 未利用大规模无标注分子数据进行预训练,可能限制了泛化能力
  4. 可解释性: 融合后的表示缺乏化学层面的可解释性
  5. 多构象采样: 仅使用单一构象,而分子在实际中存在构象集合

相关工作与启发

  • Uni-Mol: He et al. (2023) — 基于 3D 的统一分子表示学习
  • 3D-MoLM: Li et al. (2024) — 3D 分子语言模型
  • MoleculeSTM: Liu et al. (2023) — SMILES + 文本的多模态分子模型
  • Mamba: Gu & Dao (2024) — 选择性状态空间模型
  • GEM: Fang et al. (2022) — 几何增强的分子表示

评分

  • 创新性: 4/5 — SFP + PI 的组合设计针对性强
  • 技术质量: 4/5 — 29 个基准任务的全面验证
  • 表达质量: 4/5 — 论文结构清晰,动机阐述充分
  • 实用性: 4/5 — 开源代码,直接可用于药物发现
  • 综合评分: 4/5

相关论文