Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation¶

会议: CVPR 2026
arXiv: 2603.12845
代码: 无
领域: 医学图像 / 蛋白质语言模型 / 生物信息学
关键词: 酶动力学参数预测, 蛋白质语言模型, 交叉注意力, 混合专家, 分布对齐

一句话总结¶

提出ERBA（Enzyme-Reaction Bridging Adapter），将酶动力学参数预测重新建模为与催化机制对齐的分阶段条件化问题——先通过MRCA注入底物信息捕捉分子识别，再通过G-MoE融合活性位点3D几何信息建模构象适应，并用ESDA做分布对齐保持PLM先验——在三个动力学指标上全面超越现有SOTA。

背景与动机¶

酶动力学参数（如转化数 \(k_{cat}\)、米氏常数 \(K_m\)、抑制常数 \(K_i\)）的准确预测对于高通量蛋白质设计和合成生物学至关重要，可以在湿实验之前筛选候选酶。现有方法如DLKcat、UniKP、CataPro、CatPred等虽然引入了蛋白质语言模型（PLM）特征和底物SMILES编码，但存在两个核心问题：

浅层融合：大多数方法只是简单拼接酶和底物表示然后回归，把催化过程当作静态兼容性问题，忽略了催化的分阶段本质（先底物识别、再构象适应）。
PLM被动使用：PLM仅作为固定特征提取器或轻量微调的backbone，没有被显式地根据具体底物和口袋几何进行条件化调整。此外，直接注入3D结构信息可能破坏PLM预训练学到的生化语义。

核心问题¶

如何在微调PLM进行酶动力学预测时，既能系统性地注入底物化学信息和活性位点3D结构信息，又能保持PLM在大规模自监督预训练中学到的生化先验？核心挑战在于融合的顺序、方式和稳定性。

方法详解¶

整体框架¶

ERBA的pipeline模拟真实催化机制的两个阶段： - 输入：酶氨基酸序列 \(\mathbf{S}_e\)、底物SMILES \(\mathbf{S}_m\)、活性位点3D结构 \(\mathbf{S}_g\) - Stage 1 — 分子识别：通过MRCA将底物语义注入酶的PLM表示 - Stage 2 — 构象适应：通过G-MoE融合活性位点几何信息，路由到口袋特化的专家 - 分布对齐：ESDA约束各阶段表示在PLM流形上保持分布一致性 - 输出：在 \(\log_{10}\) 空间预测动力学参数，使用异方差高斯NLL

整体公式为 \(\hat{\mathbf{y}} = \mathcal{G}^{(2)}(\mathcal{M}^{(1)}(\mathbf{S}_e, \mathbf{S}_m), \mathbf{S}_g)\)。

关键设计¶

MRCA（Molecular Recognition Cross-Attention）：PLM浅层输出酶的残基嵌入 \(\mathbf{H}_e \in \mathbb{R}^{L_e \times D}\)，底物用MPNN编码器得到 \(\mathbf{H}_m \in \mathbb{R}^{L_m \times D}\)。MRCA通过单层交叉注意力，以酶token为query、底物token为key/value，将底物语义注入酶表示。这模拟了酶首先识别并定位底物的过程。与简单的拼接+自注意力相比，MRCA在 \(K_i\) 上将 \(R^2\) 从0.47提升到0.61。
G-MoE（Geometry-aware Mixture-of-Experts）：设计了几何感知的专家混合层。路由机制综合了MRCA输出的口袋区域表示和E-GNN编码的3D几何描述子，通过Top-k稀疏门控选择2个（共4个）最相关的专家。每个专家执行口袋局部的低秩适应（类似LoRA），几何信息通过偏置项调制通道激活。这让不同构象类型的酶-底物对被路由到不同的专家，模拟了催化中的诱导契合效应。与标准MoE相比，\(R^2\) 从0.50提到0.61。
ESDA（Enzyme-Substrate Distribution Alignment）：定义三级表示——原始序列表示 \(\mathcal{Z}^{(0)}\)、底物条件化后 \(\mathcal{Z}^{(1)}\)、几何条件化后 \(\mathcal{Z}^{(2)}\)。使用RBF核的MMD（最大均值差异）约束 \(\mathcal{Z}^{(1)}\) 和 \(\mathcal{Z}^{(2)}\) 的分布不偏离 \(\mathcal{Z}^{(0)}\) 太远，防止多模态信息注入时的"特征洪泛"和PLM语义遗忘。与普通L2 loss相比，\(R^2\) 从0.48提到0.61。

损失函数 / 训练策略¶

主任务损失：在 \(\log_{10}\) 空间使用异方差高斯NLL（同时预测均值和方差），适合处理动力学参数的正值约束和乘性噪声
G-MoE平衡损失 \(\mathcal{L}_\text{G-MoE}\)：鼓励专家均匀使用，防止专家塌缩
ESDA对齐损失 \(\mathcal{L}_\text{ESDA}\)：MMD分布对齐
总损失 \(\mathcal{L} = \mathcal{L}_\text{task} + 0.01 \cdot \mathcal{L}_\text{G-MoE} + 0.1 \cdot \mathcal{L}_\text{ESDA}\)
使用LoRA（rank=8, scaling=16）对PLM顶层做参数高效微调

实验关键数据¶

数据集/指标	指标	ERBA (Ours)	CatPred (之前SOTA)	提升
\(k_{cat}\)	R²	0.54	0.40	+0.14
\(k_{cat}\)	PCC	0.74	0.67	+0.07
\(k_{cat}\)	RMSE	1.13	1.30	-0.17
\(K_m\)	R²	0.61	0.49	+0.12
\(K_m\)	PCC	0.79	0.65	+0.14
\(K_m\)	RMSE	0.70	0.93	-0.23
\(K_i\)	R²	0.61	0.45	+0.16
\(K_i\)	PCC	0.78	0.60	+0.18
OOD \(k_{cat}\)	R²	0.50	0.25 (CatPred)	+0.25
OOD \(K_m\)	R²	0.55	0.30 (CatPred)	+0.25

Backbone扩展：在ESM2（8M→3B）、ProtT5-3B、Ankh3（1.8B/5.7B）上加ERBA均获一致提升，验证了方法的通用性。

消融实验要点¶

融合顺序很重要：先底物后结构（\(\mathbf{S}_e → \mathbf{S}_m → \mathbf{S}_g\)）比先结构后底物好很多，\(R^2\) 提升37.8%
MRCA vs 拼接+自注意力：MRCA使 \(R^2\) 提升29.8%，说明显式交叉注意力比浅层融合更有效
G-MoE vs 标准MoE：几何感知路由比普通路由 \(R^2\) 提22%，说明基于口袋形态路由到不同专家是有效的
ESDA vs L2：分布对齐使 \(R^2\) 提27.1%，证实了保持PLM流形一致性的重要性
逐模块叠加：PLM baseline(0.49) → +MRCA(0.51) → +G-MoE(0.54) → +ESDA(0.61)，三个模块各有贡献

亮点¶

机制对齐的问题建模：将酶学中的"识别→适应"两阶段催化过程映射到模型设计中（MRCA→G-MoE），非常优雅
ESDA的分布对齐思路：用RKHS中的MMD来防止多模态微调时的语义漂移，这个思路很通用，可迁移到任何多模态微调场景
G-MoE的几何路由：用3D口袋结构来决定路由，让不同形态的活性位点由不同专家处理，符合酶催化的生物学直觉
OOD泛化显著：在EITLEM测试集上R²提升近一倍（0.25→0.50），说明条件化PLM比被动使用PLM泛化能力强得多

局限性 / 可改进方向¶

当前仅处理野生型酶，未系统评估突变体（虽然OOD集包含突变体）
3D结构依赖AlphaFold2/ESMFold预测，真实结构可能不同
未考虑辅因子（cofactor）、pH、温度等环境变量的影响
酶类EC-6（连接酶）结果仍不够好（\(K_m\) R²仅0.34），可能需要特定领域的数据增强
计算成本上使用ESM2-3B作为backbone，推理效率可进一步优化

与相关工作的对比¶

vs CatPred（Nat.C 2025）：CatPred虽然也用了3D结构，但融合方式是浅层的；ERBA通过分阶段条件化显著超越，尤其在OOD上差距更大
vs EITLEM（Chem.Catal 2024）：EITLEM用ESM-1v+残基级注意力处理突变体，但没有显式的底物条件化和结构融合
vs UniKP/CataPro：这些方法用ProtT5+SMILES做多端点预测，但本质上是浅层拼接

启发与关联¶

ESDA的分布对齐思路可以迁移到多模态医学图像分析中——在微调视觉基础模型时保持预训练语义
"先识别再适应"的分阶段建模思路对任何涉及两阶段决策的任务都有参考价值
MoE的领域感知路由设计（根据输入结构特性路由）是一个通用的trick

评分¶

新颖性: ⭐⭐⭐⭐ 机制对齐的分阶段条件建模有生物学依据，ESDA方法优雅，但各组件本身非全新
实验充分度: ⭐⭐⭐⭐⭐ 三个端点×多PLM backbone×OOD测试×六类酶分析×详尽消融，覆盖非常全面
写作质量: ⭐⭐⭐⭐ 公式体系完整，生物学背景解释到位，但论文偏长
价值: ⭐⭐⭐⭐ 对计算生物学有实际应用价值，分布对齐思路可迁移到其他多模态任务