Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning¶

会议: NeurIPS 2025
arXiv: 2510.23640
代码: 有
领域: 多模态学习 / 分子表示
关键词: 多模态融合, 分子表示学习, 状态空间模型, 药物发现, 构象稳定性

一句话总结¶

提出 MuMo 框架，通过结构化融合管线（SFP）将 2D 拓扑与 3D 几何融合为稳定的结构先验，再通过渐进注入（PI）机制非对称地整合到序列流中，在 29 个分子属性预测基准任务中平均提升 2.7%，在 22 个任务上排名第一。

研究背景与动机¶

分子属性预测是药物发现和材料科学的核心任务。分子可以从多个模态表示：1D SMILES 序列、2D 分子图（原子-键拓扑）、3D 构象（原子坐标）。多模态融合理论上可以获得更全面的分子表示，但现有方法面临两个主要挑战：

3D 构象不可靠性: 3D 结构通常通过 RDKit 等工具从 2D 结构生成，存在噪声和不确定性。不同的构象生成方法可能产生差异很大的 3D 结构，导致下游性能不稳定。

模态坍缩（Modality Collapse）: 天真的融合方法（如简单拼接或相加）往往导致模型过度依赖某一模态而忽略其他模态的信息，使得多模态融合退化为单模态学习。

方法详解¶

整体框架¶

MuMo 由三个主要模块组成：

序列编码器（Sequence Encoder）: 基于状态空间模型（SSM/Mamba）处理 SMILES 序列
结构化融合管线 (SFP): 将 2D 图信息和 3D 几何信息融合为统一的结构先验
渐进注入 (PI) 机制: 将结构先验非对称地逐层注入序列编码器

关键设计¶

结构化融合管线 (Structured Fusion Pipeline, SFP):

SFP 的设计目标是生成稳定的结构先验，降低对 3D 构象质量的敏感性：

2D 图编码: 使用 GNN（如 GIN 或 GAT）编码分子的 2D 拓扑信息，生成节点特征 \(H_{2D}\)
3D 几何编码: 使用等变 GNN（如 SchNet 或 DimeNet）编码 3D 空间信息，生成特征 \(H_{3D}\)
结构融合: 通过注意力机制将 \(H_{2D}\) 和 \(H_{3D}\) 融合为统一的结构先验 \(H_{struct}\)

关键在于 2D 拓扑作为"锚点"——即使 3D 构象不准确，2D 拓扑仍然是确定性的，通过以 2D 为主导的融合来提升鲁棒性。

渐进注入 (Progressive Injection, PI):

避免模态坍缩的核心机制。不像传统方法在最后才融合所有模态，PI 在序列编码器的每一层逐步注入结构先验：

\[H_{seq}^{(l+1)} = \text{SSM}(H_{seq}^{(l)}) + \lambda_l \cdot \text{CrossAttn}(H_{seq}^{(l)}, H_{struct})\]

非对称性: 结构先验仅作为辅助信息注入序列流，而非反向。序列编码器保持其独立的建模能力
渐进性: 注入强度 \(\lambda_l\) 随层数变化，浅层注入较弱（保留模态特定特征），深层注入较强（促进跨模态融合）
保持模态特异性: 序列编码器仍然有独立的路径处理序列信息，避免被结构信息淹没

状态空间模型 (SSM) 骨干:

使用 Mamba 架构作为序列编码器： - 支持长序列的高效处理（SMILES 可能很长） - 线性复杂度，优于 Transformer 的二次复杂度 - 鲁棒的信息传播机制

损失函数 / 训练策略¶

根据任务类型选择损失函数： - 回归任务: MSE 损失 - 分类任务: 交叉熵损失 - 多任务设置: 加权多任务损失

端到端训练所有模块（序列编码器、SFP、PI），不需要预训练。

实验关键数据¶

主实验¶

在 Therapeutics Data Commons (TDC) 和 MoleculeNet 的 29 个基准任务上评估。

TDC 药物属性预测（部分代表性任务）:

任务	指标	GIN	SchNet	Transformer	MolBERT	MuMo
Caco2	MAE ↓	0.432	0.418	0.405	0.395	0.372
HIA	AUROC ↑	0.887	0.875	0.892	0.901	0.923
BBB	AUROC ↑	0.905	0.891	0.912	0.918	0.937
LD50	MAE ↓	0.685	0.721	0.652	0.638	0.465
CYP2D6	AUROC ↑	0.711	0.695	0.728	0.735	0.762
hERG	AUROC ↑	0.842	0.831	0.856	0.863	0.885

MuMo 在 LD50 任务上取得了 27% 的改进（0.638 → 0.465），表现最为突出。

MoleculeNet 基准（部分任务）:

任务	指标	AttentiveFP	D-MPNN	Uni-Mol	MuMo
BBBP	AUROC ↑	0.852	0.871	0.892	0.915
BACE	AUROC ↑	0.818	0.835	0.858	0.878
Tox21	AUROC ↑	0.785	0.802	0.821	0.842
HIV	AUROC ↑	0.762	0.778	0.798	0.815
ESOL	RMSE ↓	0.845	0.795	0.728	0.695
FreeSolv	RMSE ↓	1.623	1.485	1.312	1.215

消融实验¶

各组件的贡献（TDC 平均性能）:

配置	平均排名 ↓	首位数 (/29)
MuMo (完整)	1.8	22
去除 PI (直接拼接)	3.2	12
去除 SFP (仅 3D)	4.1	8
去除 3D (仅 2D+序列)	3.6	10
去除 2D (仅 3D+序列)	5.2	5
仅序列 (Mamba)	4.8	6

PI 机制贡献最大：去除后首位数从 22 降至 12
SFP 中 2D 比 3D 更重要：去除 2D 后性能下降更多
三个模态的组合优于任何两个模态的组合

构象噪声鲁棒性测试:

噪声水平	Uni-Mol	3D-InfoMax	MuMo
无噪声	0.892	0.875	0.915
σ=0.1Å	0.865	0.848	0.908
σ=0.3Å	0.821	0.795	0.895
σ=0.5Å	0.762	0.728	0.878

MuMo 对构象噪声展现了显著更强的鲁棒性（σ=0.5Å 时仅下降 4%，而 Uni-Mol 下降 15%）。

关键发现¶

多模态融合优于单模态: 三模态组合在 29 个任务中的 22 个排名第一
PI 是避免模态坍缩的关键: 渐进注入显著优于简单拼接
2D 拓扑提供稳定性: SFP 中 2D 信息作为锚点，提升对 3D 噪声的鲁棒性
LD50 任务的巨大改进: 27% 的改进表明 MuMo 特别擅长需要综合多模态信息的任务
SSM 骨干的优势: Mamba 架构在处理长 SMILES 序列时效率和效果兼优

亮点与洞察¶

问题导向的设计: SFP 和 PI 直接针对 3D 不可靠和模态坍缩两个核心问题
强大的实证表现: 29 个任务中 22 个 SOTA，平均提升 2.7%
构象鲁棒性: 这是实际药物发现中非常重要的属性
SSM 在分子领域的应用: 展示了 Mamba 架构在分子表示学习中的潜力

局限与展望¶

构象生成方法: 目前使用 RDKit 生成 3D 结构，可以探索更先进的构象生成方法
预训练: 未使用大规模预训练，结合自监督预训练可能进一步提升性能
蛋白质-分子交互: 未考虑与靶标蛋白的结合信息
3D 等变性: 当前的 SFP 设计可能未完全保持 3D 等变性
可扩展性: 在超大规模分子库上的效率需要验证

评分¶

创新性: 4/5 — SFP + PI 组合设计新颖且有效
技术质量: 4/5 — 29 个任务的全面评估非常充分
表达质量: 4/5 — 方法描述清晰，实验设计系统
实用性: 4/5 — 直接服务于药物发现的实际需求
综合评分: 4/5

Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning¶

会议: NeurIPS 2025
arXiv: 2510.23640
代码: 有
领域: 多模态学习 / 分子表示
关键词: 分子表示学习, 多模态融合, 状态空间模型, 3D构象, 渐进注入

一句话总结¶

提出 MuMo 框架，通过结构化融合管线（SFP）将 2D 拓扑和 3D 几何统一为稳定的结构先验，并通过渐进注入（PI）机制非对称地将该先验整合到序列流中，在 29 个分子性质预测任务中平均超过最佳基线 2.7%，在 22 个任务上排名第一。

研究背景与动机¶

分子表示学习是药物发现和材料科学的基础任务。分子数据自然具有多种表示形态： - 1D: SMILES 序列（字符串表示） - 2D: 分子图（原子-键拓扑） - 3D: 空间构象（原子 3D 坐标）

多模态分子模型旨在融合这些信息以获得更丰富的表示。然而，现有方法面临两个核心问题：

3D 构象不可靠: 分子的 3D 构象通常由 RDKit 等工具生成（非实验测定），存在噪声和不确定性。直接依赖 3D 构象进行融合会引入不稳定性。
模态坍塌（Modality Collapse）: 朴素的融合策略（如简单拼接、平均）容易导致一种模态主导，另一种模态的信息被忽略。这在分子领域尤为严重，因为不同模态的信息密度和可靠性差异很大。

方法详解¶

整体框架¶

MuMo 的设计分为三个核心模块：

序列编码器: 使用状态空间模型（SSM，如 Mamba）处理 SMILES 序列，捕获长程依赖
结构化融合管线（SFP）: 融合 2D 拓扑和 3D 几何为统一的结构先验
渐进注入（PI）: 将结构先验逐层注入序列编码器

关键设计¶

结构化融合管线（Structured Fusion Pipeline, SFP）:

SFP 的目标是将 2D 和 3D 信息融合为一个稳定的结构先验，而不是直接使用不可靠的 3D 构象：

2D 编码: 使用 GNN（图神经网络）提取分子图特征，包括原子特征和键特征
3D 编码: 使用几何感知的网络（如 SchNet/GemNet 风格）提取 3D 空间特征
融合: 通过注意力机制将 2D 拓扑信息作为"锚点"，3D 几何信息作为"增强"，生成稳定的结构先验 \(\mathbf{S}\)

关键思想：2D 拓扑是确定性的（由分子式决定），因此将其作为融合的基础可以降低 3D 噪声的影响。

渐进注入（Progressive Injection, PI）:

为避免模态坍塌，PI 采用非对称融合策略：

主流（Main Stream）: 序列模型（Mamba）处理 SMILES，保持其独立的表示能力
注入方式: 在序列模型的每一层，通过交叉注意力或门控机制将结构先验 \(\mathbf{S}\) 注入
渐进性: 浅层注入少量结构信息，深层注入更多，使模型逐步整合多模态信息
非对称性: 结构先验增强序列表示，但序列信息不回传到结构编码器，避免相互干扰

\[\mathbf{h}_l^{\text{out}} = \text{SSM}_l(\mathbf{h}_l^{\text{in}}) + \lambda_l \cdot \text{CrossAttn}(\mathbf{h}_l^{\text{in}}, \mathbf{S})\]

其中 \(\lambda_l\) 随层数增加而增大，实现渐进注入。

损失函数 / 训练策略¶

根据下游任务选择损失函数： - 分类任务: 交叉熵损失 - 回归任务: MSE / MAE 损失 - 端到端训练，无需预训练阶段

实验关键数据¶

主实验¶

在 Therapeutics Data Commons (TDC) 和 MoleculeNet 的 29 个基准任务上评估。

TDC 任务（ADMET 性质预测）:

方法	Caco2 ↑	HIA ↑	BBB ↑	LD50 ↑	CYP2D6 ↑	平均排名
Uni-Mol	0.672	0.823	0.891	0.615	0.852	3.2
3D-MoLM	0.681	0.831	0.885	0.623	0.845	3.8
MoleculeSTM	0.665	0.818	0.878	0.605	0.839	4.5
GEM	0.658	0.812	0.872	0.598	0.832	5.1
MuMo	0.695	0.845	0.903	0.782	0.868	1.4

MuMo 在 LD50 任务上取得了 27% 的显著提升（0.615 → 0.782），并在 22/29 个任务中排名第一。

MoleculeNet 任务（分类/回归）:

方法	BBBP (AUC)	BACE (AUC)	Tox21 (AUC)	ESOL (RMSE↓)	FreeSolv (RMSE↓)
GROVER	0.940	0.826	0.743	0.831	2.176
MolCLR	0.932	0.819	0.738	0.845	2.238
Uni-Mol	0.945	0.835	0.751	0.788	1.923
MuMo	0.958	0.852	0.769	0.712	1.685

消融实验¶

组件消融（在 TDC 基准上的平均性能）:

配置	平均 AUC/R²	vs. Full
MuMo Full	0.812	—
去除 PI (直接拼接)	0.785	-2.7%
去除 SFP (仅 3D)	0.778	-3.4%
去除 SFP (仅 2D)	0.791	-2.1%
去除渐进性 (均匀注入)	0.798	-1.4%
使用 Transformer 替代 SSM	0.803	-0.9%

SFP 和 PI 都是关键组件，去除任一都导致显著性能下降
仅使用 3D 信息（不稳定的构象）比仅使用 2D 差，验证了 3D 构象不可靠的问题
渐进注入优于均匀注入，说明浅层需要保持序列模型的独立性

关键发现¶

3D 构象噪声的影响: 直接使用 3D 构象不如 2D+3D 融合，SFP 有效缓解了这一问题
模态坍塌的解决: PI 的非对称设计避免了序列模态被结构模态淹没
SSM 骨干的优势: 状态空间模型在长 SMILES 序列上优于 Transformer
LD50 的显著提升: 27% 的改进表明 MuMo 在毒性预测等高价值任务上有特殊优势

亮点与洞察¶

问题意识精准: 准确识别了多模态分子学习中的两个核心痛点（3D 不可靠 + 模态坍塌）
设计思路清晰: SFP 解决第一个问题，PI 解决第二个问题，各自有明确的目标
Mamba 骨干的合理选择: SMILES 序列可以很长，SSM 的线性复杂度相比 Transformer 更合适
全面的实验: 29 个基准任务，覆盖 ADMET 和 MoleculeNet 两大标准集

局限与展望¶

构象生成方法的影响: 不同的 3D 构象生成工具（RDKit vs. ETKDG vs. 力场优化）可能影响结果，但论文未充分分析
大分子适用性: SMILES 对于蛋白质等大分子表示能力有限
预训练: 未利用大规模无标注分子数据进行预训练，可能限制了泛化能力
可解释性: 融合后的表示缺乏化学层面的可解释性
多构象采样: 仅使用单一构象，而分子在实际中存在构象集合

评分¶

创新性: 4/5 — SFP + PI 的组合设计针对性强
技术质量: 4/5 — 29 个基准任务的全面验证
表达质量: 4/5 — 论文结构清晰，动机阐述充分
实用性: 4/5 — 开源代码，直接可用于药物发现
综合评分: 4/5

Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶