Multiscale Guidance of Protein Structure Prediction with Heterogeneous Cryo-EM Data¶

会议: NeurIPS 2025
arXiv: 2506.04490
代码: GitHub
领域: 医学图像
关键词: 蛋白质结构预测, 冷冻电镜, 扩散模型引导, 构象多样性, Boltz-1

一句话总结¶

CryoBoltz利用冷冻电镜（cryo-EM）密度图通过多尺度引导机制（全局→局部）引导预训练扩散结构预测模型（Boltz-1）的采样轨迹，无需重新训练即可生成与实验数据一致的多构象原子模型。

研究背景与动机¶

当前蛋白质结构预测领域面临两大挑战的鸿沟：

结构预测模型的单构象偏差：AlphaFold3、Boltz-1等扩散模型虽能生成结构，但其采样分布高度集中于单一构象——例如Boltz-1只采样到STP10的外向构象，AlphaFold3只采样到内向构象。现有MSA子采样方法虽能略微增加多样性，但效果有限且无法覆盖构象连续体。

Cryo-EM重建到原子模型的瓶颈：cryo-EM实验能捕获蛋白质的构象景观，但产出的3D密度图并非原子模型。现有Model Building方法（如ModelAngelo）依赖高分辨率图（<4Å），在低分辨率（>4Å）或异质性复合物面前频繁失败——例如P-glycoprotein的4个构象中ModelAngelo仅建模了2.3%-40.3%的残基。

本文的核心思路是：将cryo-EM密度图中的实验信息注入到预训练扩散模型的反向采样过程中，既利用了结构预测模型学到的序列和生物物理先验，又利用了实验数据捕获的真实构象信息。

方法详解¶

整体框架¶

CryoBoltz基于DPS（Diffusion Posterior Sampling）框架，将预训练的Boltz-1扩散模型视为隐式先验\(p(\mathbf{x}|\mathbf{s})\)，将cryo-EM密度图作为观测\(\mathbf{y}\)，通过引导反向扩散过程采样后验\(p(\mathbf{x}|\mathbf{y},\mathbf{s})\)。整个过程分四个阶段，共200步扩散：

暖机（Warm-up）→ 全局引导 → 局部引导 → 松弛（Relaxation）

关键设计¶

全局引导（Global Guidance）：将密度图\(\mathbf{y} \in \mathbb{R}^{w \times h \times d}\)通过加权k-means聚类转化为3D点云\(\mathbf{Y} \in \mathbb{R}^{k \times 3}\)，其中\(k = \lfloor N/(4r^3) \rfloor\)（\(N\)为原子数，\(r\)为体素大小）。引导项基于Sinkhorn散度（正则化Wasserstein距离）：

\[\tilde{s}_\theta(\mathbf{y}, \mathbf{x}, \mathbf{s}, t) = -\nabla_\mathbf{x} \mathfrak{D}(\hat{\mathbf{x}}_\theta(\mathbf{x}, \mathbf{s}, t), \mathbf{Y})\]

这一阶段只关心蛋白质的全局形状（如哪些螺旋朝内/朝外），不涉及高分辨率细节，避免了非线性似然函数在早期带来的优化困难。引导强度按余弦退火从0.25降至0.05。

局部引导（Local Guidance）：使用原始密度图，基于cryo-EM物理正向模型（每个非氢原子贡献一个高斯散射势），引导项直接最小化模拟密度图与实验密度图的L2距离：

\[\tilde{s}_\theta(\mathbf{y}, \mathbf{x}, \mathbf{s}, t) = -\nabla_\mathbf{x} \|\mathbf{y} - \mathcal{B}(\Gamma(\hat{\mathbf{x}}_\theta(\mathbf{x}, \mathbf{s}, t), \mathbf{s}))\|^2\]

其中\(\Gamma\)是将原子坐标映射为密度的算子，\(\mathcal{B}\)模拟B因子的模糊效应。引导强度固定为\(\lambda=0.5\)。

多尺度引导调度：合成数据用\(T_w=125, T_g=25, T_l=25, T_r=25\)，实验数据用\(T_w=100, T_g=50, T_l=25, T_r=25\)（实验数据全局引导更多步以驱动更大构象变化）。暖机和松弛阶段不加引导——暖机建立合理初始化，松弛修正空间位阻冲突等细节。

损失函数 / 训练策略¶

CryoBoltz无需任何训练，完全是推理时（inference-time）引导方法。核心优势在于：可随基础模型的持续改进而自动受益。每次实验采样25个结构×3个replicate，选RMSD最低的作为最终结果。计算在单块A100 80GB GPU上完成。

实验关键数据¶

主实验（合成数据）¶

系统	指标	CryoBoltz	Boltz-1	Boltz-1+MSA子采样	AlphaFold3
STP10 (内向)	All-atom RMSD (Å)	1.057	3.815	3.768	1.263
STP10 (外向)	All-atom RMSD (Å)	0.888	2.656	2.542	4.478
CH67抗体	Local RMSD (Å)	1.269	3.120	3.270	3.191
CH67抗体	TM score	0.994	0.972	0.969	0.971

主实验（实验数据）¶

系统	分辨率(Å)	CryoBoltz RMSD	Boltz-1 RMSD	AF3 RMSD	ModelAngelo完整度
P-gp (apo)	4.3	1.382	6.994	3.827	40.3%
P-gp (内向)	4.4	1.348	5.630	2.692	18.3%
P-gp (闭塞)	4.1	1.727	2.929	3.440	2.3%
Pma1 (抑制)	3.52	1.999	6.140	8.017	72.8%
CYP (闭合)	4.4	2.004	8.784	3.585	18.9%
CYP (开放)	6.5	4.167	8.532	6.490	0.0%

消融实验¶

配置	STP10内向 RMSD	STP10外向 RMSD	说明
完整CryoBoltz	1.057	0.888	全局+局部引导
仅局部引导	3.860	2.722	缺少全局引导，难以驱动大构象变化
仅全局引导	1.287	1.164	缺少局部引导，高分辨率细节不足

关键发现¶

CryoBoltz在所有10个实验密度图上均优于Boltz-1和AlphaFold3
未经引导的Boltz-1/AF3通常只采样到一种构象，CryoBoltz成功采样到两种乃至四种构象
ModelAngelo在低分辨率图（>4Å）上严重失败，6.5Å时完整度为0%
全局引导驱动大范围构象变化，局部引导精修高分辨率细节，两者缺一不可

亮点与洞察¶

零训练开销：纯推理时方法，可即插即用到任何扩散结构预测模型
多尺度引导的必要性：密度图到原子模型的正向映射高度非线性，直接优化似然函数会导致多模态问题，点云中间表示优雅地解决了早期引导的稳定性
实际应用价值极高：cryo-EM模型建模通常需数小时人工精修，CryoBoltz可在分钟级完成

局限与展望¶

优化稳定性受似然\(p(\mathbf{y}|\mathbf{x})\)多模态影响，需采样多个结构取最优（增加计算开销）
暖机阶段依赖基础模型的合理初始化，部分复杂系统（如DSL1/SNARE复合物）初始化失败
各引导阶段的步数划分为启发式设定，尚无自动选择策略
多密度图场景下，尚未探索共享的变形模型来替代独立优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将DPS引导框架应用于蛋白质结构预测+cryo-EM数据融合
实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据、6个生物系统、多基线对比、详尽消融和统计检验
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，方法推导严谨，图表精美
价值: ⭐⭐⭐⭐⭐ 解决结构生物学重要痛点，代码开源，实用性强