A Standardized Benchmark for Multilabel Antimicrobial Peptide Classification¶

会议: NeurIPS 2025
arXiv: 2511.04814
作者: Sebastian Ojeda, Rafael Velasquez, Nicolás Aparicio, Juanita Puentes, Paula Cárdenas, Nicolás Andrade, Gabriel González, Sergio Rincón, Carolina Muñoz-Camargo, Pablo Arbeláez (Universidad de los Andes, Colombia)
领域: others (生物信息学 / 抗菌肽分类)
关键词: Antimicrobial Peptide, Multilabel Classification, Benchmark, Transformer, Cross-Attention, Drug Discovery

一句话总结¶

提出 ESCAPE——首个标准化的多标签抗菌肽分类基准，整合 27 个公开数据库共 80,000+ 肽段，并设计基于双分支 Transformer + 双向交叉注意力的 Baseline 模型，在 mAP 上相对第二名提升 2.56%。

研究背景与动机¶

抗菌素耐药性 (AMR) 危机：据估计 2025–2050 年间 AMR 感染可导致超 3900 万人死亡，寻找替代分子（如抗菌肽 AMP）迫在眉睫。
AMP 的潜力：抗菌肽通过不易被病原体规避的机制（如膜破坏、细胞壁合成抑制等）发挥作用，耐药风险较传统抗生素低。
AI 加速 AMP 发现的瓶颈：现有 AI 方法多将任务简化为二分类（是否抗菌），忽略了 AMP 可同时对多种微生物（细菌、真菌、病毒、寄生虫）有活性的多标签本质。
数据碎片化问题：各数据库在格式、标注标准、功能类别粒度上差异巨大（如 dbAMP 有 58 类 vs. DRAMP 仅 8 类），模型无法跨数据集公平比较。
缺乏标准基准：大多数研究使用自定义数据集和划分，无法复现或做方法间的公平对比。
多标签空白：已有少量多标签方法（如 AMPs-Net、TransImbAMP），但尚无统一的多标签 AMP 基准供社区使用。

方法详解¶

整体框架：ESCAPE（数据集 + 基准 + Baseline模型）¶

ESCAPE 的贡献分三个层级：

ESCAPE Dataset：从 27 个公开 AMP 数据库中编译、清洗并标准化 80,000+ 肽段，统一为 5 类多标签体系（antibacterial / antifungal / antiviral / antiparasitic / antimicrobial），外加 Non-AMP 负样本。
ESCAPE Benchmark：在统一数据集上对 7 种代表性方法进行公平的多标签评估，采用 2-fold 交叉验证 + 测试集、3 个随机种子取均值与标准差。
ESCAPE Baseline：双分支 Transformer 架构，融合序列与结构信息进行多标签分类。

关键设计 1：数据编译与清洗流程¶

从 27 个数据库收集实验验证的 AMP 序列，涵盖四种抗微生物活性。
负样本（Non-AMP）采用 UniProt 关键词排除法（排除 membrane、toxic、antibiotic 等关键词）+ 从已知非抗菌数据集中纳入。
清洗规则：移除含合成残基（O、U、Bal 等）及未定义氨基酸（X）的序列；保留长度 5–250 的肽段；合并跨库重复序列并整合其多标签标注。
最终规模：60,950 Non-AMP + 21,409 AMP，按标签分层划分为 2-fold + test set。

关键设计 2：双分支 Transformer 编码器¶

序列分支： - 对氨基酸序列进行 token 化（词表大小 27），padding/截断至固定长度 200。 - 嵌入维度 256，加入 [CLS] token 和位置编码。 - 4 层 Transformer encoder，每层 8 头注意力。

结构分支： - 利用 3D 结构（UniProt/PDB 实验结构或 RosettaFold/AlphaFold3 预测）计算 Cα 原子间距矩阵 \(\mathcal{M} \in \mathbb{R}^{N \times N}\)。 - 将矩阵 resize 至 224×224，通过 2D 卷积（kernel=16, stride=16）切分为不重叠 patch，每个 patch 投影至 192 维。 - 同样加 [CLS] token + 位置编码，经 4 层 8 头 Transformer 编码。

关键设计 3：双向交叉注意力融合¶

序列侧 [CLS] 作为 Query 去 attend 结构侧全部 token（Key/Value），建模"序列信息如何被结构上下文增强"。
反向同理，结构侧 Query attend 序列侧 Key/Value。
残差连接 + FFN 精炼，最终将两个更新后的 [CLS] 向量拼接后经线性分类头输出 5 维多标签预测。

损失函数与训练¶

损失：多标签分类（论文未特别说明，推测为 Binary Cross-Entropy）。
优化器：AdamW，学习率 \(1 \times 10^{-4}\)，batch size 64，训练 100 epoch。
评估：2-fold 交叉验证训练两个模型，推理时概率取平均；3 个随机种子（42, 1665, 8914）取均值 ± 标准差。
指标：mAP 和 F1-score。

实验关键数据¶

Table 1 & 2：ESCAPE Benchmark 主结果¶

方法	mAP (%)	F1 (%)	Antiparasitic AP (%)
AMPs-Net	54.6±0.86	57.7±0.70	5.3±0.67
TransImbAMP	64.9±1.11	62.0±0.70	16.7±0.86
AMP-BERT	66.9±1.17	64.7±0.64	21.4±2.61
amPEPpy	68.5±0.48	66.5±0.37	23.8±1.61
PEP-Net	68.4±0.53	65.5±0.61	16.2±0.84
AVP-IFT	68.8±0.50	66.5±0.59	20.0±4.25
AMPlify	70.3±0.87	68.5±0.77	27.7±1.33
ESCAPE Baseline	72.1±0.60	69.8±0.43	37.6±2.87

Table 3：消融实验¶

结构模块	序列模块	交叉注意力	mAP (%)	F1 (%)
✓	-	-	47.7	46.9
-	✓	-	69.4	67.6
✓	✓	✓	72.7	69.5

核心发现¶

ESCAPE Baseline 全面领先：mAP 72.1%，相对第二名 AMPlify (70.3%) 提升 2.56%；F1 69.8%，相对提升 1.90%。
稀少类别提升显著：antiparasitic 类的 AP 从 AMPlify 的 27.7% 跃升至 37.6%，相对提升 35.7%。
序列 >> 结构：仅序列的 mAP 69.4%，远高于仅结构的 47.7%（差 21.7%），说明氨基酸身份信息是分类的决定性因素。
结构作为互补：加入结构并通过交叉注意力融合后 mAP 从 69.4% → 72.7%，额外提升 3.3 个百分点。
模型大小 ≠ 性能：排名第二的 amPEPpy 基于随机森林，是计算量最小的方法；BERT 系模型（TransImbAMP、AMP-BERT）反而排名靠后，提示大语言模型在非自然语言领域的迁移存在局限。
预测结构 vs. 实验结构：仅用预测结构时 mAP 下降 1.5%、F1 下降 1.9%，说明预测结构引入的噪声会削弱模型表现。

亮点与洞察¶

填补领域空白：首个整合 27 个数据库、涵盖 80,000+ 肽段的标准化多标签 AMP 基准，真正解决了数据碎片化和标注不一致问题。
标签体系设计合理：将各数据库五花八门的功能类别统一成 4+1 的生物学层级体系，既有区分度又具可解释性。
双向交叉注意力优于简单拼接：让序列与结构互相 attend，比单纯特征拼接或单模态编码更有效地提取互补信息。
公平评估揭示重要洞察："更大的模型不一定更好"——随机森林（amPEPpy）可以媲美甚至超越 BERT 系方法，这在 AMP 特定领域是有价值的发现。
对稀少类别的显著改善：antiparasitic 从 5.3% (AMPs-Net) 到 37.6%，展现了基准+好方法的组合效应。

局限性¶

数据分布代表性：自然界中的肽段多样性远超数据集覆盖范围，80K 样本不一定反映真实分布。
序列长度偏差：AMP 天然较短（~30 aa），Non-AMP 较长（~90 aa），长度本身可能成为分类捷径。
结构预测依赖：部分肽段使用 AlphaFold3/RosettaFold 预测结构，引入额外误差（mAP 下降 1.5%）。
类别严重不平衡：antiparasitic 仅 417 条（其中 130 条唯一），所有方法在该类上表现仍有较大提升空间。
缺乏生物实验验证：模型预测在转化为实际药物发现前，需要 wet-lab 验证。
Baseline 模型相对简单：未探索更先进的预训练蛋白质语言模型（如 ESM-2 作为 backbone）或对比学习等策略。

评分¶

新颖性: ⭐⭐⭐⭐ — 首个大规模标准化多标签 AMP 基准，填补重要空白；Baseline 模型的双向交叉注意力为该领域引入了新的融合范式。
实验充分度: ⭐⭐⭐⭐⭐ — 7 种方法公平对比、3 种随机种子、消融实验、预测结构敏感性分析，评估非常全面。
写作质量: ⭐⭐⭐⭐ — 结构清晰、动机充分、图表丰富，但部分技术细节（如损失函数选择）可更明确。
价值: ⭐⭐⭐⭐⭐ — 对 AI 驱动的抗菌肽研究具有基础设施性的贡献价值，数据集和基准将推动社区发展。