CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models¶

会议: ICML 2025
arXiv: 2505.22869
代码: 无
领域: 医学图像/蛋白质设计
关键词: 蛋白质设计, 扩散语言模型, 多功能约束, 组合条件生成, 功能注释

一句话总结¶

提出 CFP-Gen——一种大规模扩散语言模型，通过注释引导特征调制（AGFM）和残基级控制编码（RCFE）实现多模态功能约束（功能注释 + 序列基序 + 3D 结构）的组合蛋白质生成，F1 分数比 ESM3 提升 30%。

研究背景与动机¶

领域现状：蛋白质语言模型（PLM）在 de novo 蛋白质设计中展现巨大潜力。现有方法大多基于单一条件（仅功能标签、仅结构、或仅序列模式）生成蛋白质。

现有痛点： - 单条件生成无法同时满足多个功能约束——实际蛋白质工程需要同时满足催化活性（EC number）、结构域（IPR domain）、亚细胞定位（GO term）等多种约束 - 迭代过滤/多步优化管道在多约束下效率低下且成功率低 - 当数据有限时这种pipeline更不可行

核心矛盾：真实世界的蛋白质工程是多目标优化问题，但现有生成模型只支持单目标。

本文目标：在统一模型中同时处理多模态功能约束的蛋白质生成。

切入角度：将扩散语言模型与多模态条件编码结合——不同类型的功能约束通过不同的模块注入生成过程。

核心 idea：AGFM（注释→特征分布调制）+ RCFE（关键残基→残基级控制）+ 结构编码器（3D 骨架→几何约束），三者组合实现多目标蛋白质设计。

方法详解¶

整体框架¶

CFP-Gen 基于 ESM 架构的扩散语言模型： 1. 输入：加噪的蛋白质序列 + 多种功能条件（GO terms, IPR domains, EC numbers, 序列基序, 3D 结构） 2. 迭代去噪生成目标蛋白质序列 3. 功能条件通过三个专用模块注入每个 ESM block

关键设计¶

注释引导特征调制 (AGFM):
- 功能：将功能注释（GO/IPR/EC）动态调制到加噪序列的特征分布中
- 核心思路：功能标签编码为 one-hot → 通过可学习仿射变换得到 scale \(\gamma\) 和 shift \(\beta\) → 对 LayerNorm 后的特征做 \(\gamma \cdot x + \beta\)（类似 AdaIN/FiLM）
- 关键优势：多个注释标签可自由组合——训练时联合优化确保功能-序列的严格对齐，推理时支持灵活的注释组合
- 设计动机：比 classifier-guided 方法更直接——AGFM 嵌入模型内部，不需要额外的分类器
残基控制功能编码 (RCFE):
- 功能：对关键氨基酸残基（序列基序/功能域）提供残基级精确控制
- 核心思路：用 ESM-like Transformer 编码器处理标记了功能域的部分序列，捕获残基间的表位关系和进化关联，作为条件注入主网络
- 设计动机：某些残基是功能的关键（如活性位点）——全局的功能注释不足以精确控制这些局部位置
3D 结构条件:
- 功能：将参考蛋白质的 3D 骨架原子坐标作为几何约束
- 核心思路：使用现成的结构编码器（如 ESM-IF）将骨架坐标编码为特征向量→注入生成过程
- 设计动机：逆折叠（inverse folding）场景——保持结构不变的同时优化序列功能

损失函数 / 训练策略¶

离散扩散：在 token 空间添加/去除噪声
交叉熵损失：预测去噪后的氨基酸
多条件联合训练：随机 mask 部分条件（dropout），增强鲁棒性
基于 ESM2-650M 架构扩展

实验关键数据¶

主实验¶

功能蛋白质生成（由领先功能预测器评估）：

方法	F1 (GO-MF) ↑	F1 (EC) ↑	序列新颖性 ↑
EvoDiff	0.35	0.28	高
DPLM	0.42	0.38	高
ESM3	0.48	0.45	中
CFP-Gen	0.62	0.58	高

逆折叠（Inverse Folding）¶

方法	AAR (氨基酸恢复率) ↑	结构一致性 (TM-Score)
ProteinMPNN	0.45	0.89
DPLM	0.48	0.87
CFP-Gen	0.57	0.91

多功能蛋白质设计¶

约束组合	成功率 ↑	说明
EC + GO (双功能酶)	72.5%	催化活性+亚细胞定位
EC + IPR (酶+结构域)	68.3%	催化活性+特定结构域
EC + 序列基序	78.1%	催化活性+保守位点

消融实验¶

配置	F1 (GO-MF)	说明
无 AGFM（无注释调制）	0.45	退化为非条件生成
无 RCFE（无残基控制）	0.55	缺少局部精确控制
无结构条件	0.58	无几何约束
完整 CFP-Gen	0.62	三种条件互补

关键发现¶

CFP-Gen 的 F1 比 ESM3 提升 30%——多模态约束的联合优化远优于单约束
AAR（逆折叠）改进 9%——结构条件有效指导序列设计
多功能蛋白质设计成功率 68-78%——首次展示大规模多功能酶设计的可行性
条件 dropout 训练使推理时支持任意条件组合——灵活性极高
生成的蛋白质序列新颖度高——不是简单地复制训练集中的已知蛋白质

亮点与洞察¶

多模态条件的统一处理是关键贡献——将分散的功能/序列/结构约束整合到单一生成框架
AGFM 的 FiLM 式调制简洁有效——从图像生成领域借鉴的成熟技术
RCFE 的残基级控制填补了全局注释和局部精度之间的鸿沟
多功能蛋白设计（如同时具有两种催化活性的酶）是蛋白质工程的重要前沿
基于 ESM 架构确保了可扩展性和与现有蛋白质 AI 生态的兼容性

局限与展望¶

功能验证仅通过计算预测器，实际实验验证（wet lab）缺失
生成的蛋白质是否真的可折叠和可表达未验证
训练数据偏向已知蛋白质功能，对全新功能的泛化能力未知
3D 结构条件依赖外部编码器的质量
生成序列的多样性 vs 功能满足之间的权衡未深入探讨

评分¶

新颖性: ⭐⭐⭐⭐⭐ 组合功能蛋白生成是重要的新范式
实验充分度: ⭐⭐⭐⭐ 多任务（功能生成/逆折叠/多功能设计），但缺 wet lab
写作质量: ⭐⭐⭐⭐ 框架清晰，模块设计合理
价值: ⭐⭐⭐⭐⭐ 对蛋白质工程有重大实际价值