Protein Structure Tokenization: Benchmarking and New Recipe¶
会议: ICML 2025 arXiv: 2503.00089 代码: GitHub 领域: 蛋白质结构 / 分词评估 关键词: 蛋白质结构分词, VQ-VAE, codebook collapse, 基准测试, ESM3
一句话总结¶
提出 StructTokenBench——首个全面评估蛋白质结构分词器 (PST) 的基准框架,从下游有效性、敏感性、独特性和 codebook 利用效率四个维度评估现有方法,并提出 AminoAseed 策略通过 codebook 重参数化和 Pareto 最优配置显著改善 VQ-VAE 型分词器的质量(相比 ESM3 提升 6.31%、利用率提升 124%)。
研究背景与动机¶
蛋白质结构分词 (PST) 将蛋白质 3D 结构编码为离散或连续表示,是蛋白质语言建模和多模态模型的基础。现有 PST 方法分为两类:
VQ-VAE 型:FoldSeek、ProTokens、ESM3——通过重建目标压缩为离散 codebook
反折叠型 (IF):ProteinMPNN、MIF——通过预测能折叠成目标结构的序列来压缩
但这些方法的能力和局限因缺乏统一评估框架而不明确。特别是 codebook collapse 问题严重——ESM3 的 4096 个 code 中最多 70% 在推理时不活跃。
方法详解¶
StructTokenBench 评估框架¶
从四个互补维度评估 PST 质量:
1. 下游有效性 (Downstream Effectiveness):12 个监督任务(24 个测试分割),包含结合位点预测、催化位点预测、保守位点预测、重复 motif 预测、表位预测、结构柔性预测和远程同源性检测。
2. 敏感性 (Sensitivity):检测高度相似蛋白质构象间的细微差异,通过表示相似度与 TM-score 的相关性衡量。
3. 独特性 (Distinctiveness):codebook 向量对间的多样性,避免冗余的 token-子结构映射。
4. Codebook 利用效率:利用率 (UR)、困惑度 (Perplexity)、边际词汇化效用 (MUV)。
AminoAseed 方法¶
1. Codebook 重参数化
通过可学习线性变换作用于固定正交向量基:
其中 \(\mathbf{C}\) 随机初始化为近似正交并在训练中固定。与 vanilla VQ-VAE 不同,线性层的所有参数都会收到梯度更新,避免未选中 code 的分布漂移。
2. Pareto 最优 Codebook 配置
在总容量 \(K \times D\) 约束下平衡 codebook 大小 \(K\) 和维度 \(D\): - \(K > 2^{10}\):下游性能下降 - \(K < 2^8\):表达力不足 - \(K = 2^9 = 512\):利用率和性能的最优平衡
VQ-VAE 优化目标¶
实验关键数据¶
下游有效性 (平均 AUROC %)¶
| 方法 | 类型 | 平均 AUROC |
|---|---|---|
| MIF | IF | 79.82 |
| ProteinMPNN | IF | 75.92 |
| ESM3 | VQ-VAE | 69.24 |
| AminoAseed | VQ-VAE | 72.43 (+4.74%) |
| VanillaVQ | VQ-VAE | 68.30 (-0.86%) |
24 个测试分割中 AminoAseed vs ESM3¶
在 24 个监督任务测试分割中,AminoAseed 平均提升 6.31%,部分任务(如 CatBio-SupFam)提升达 17.33%。
Codebook 利用效率¶
| 模型 | 利用率 UR (%) |
|---|---|
| FoldSeek | 最高 |
| ESM3 | ~30% (4096 中活跃 ~1200) |
| AminoAseed | ESM3 的 2.24× (提升 124%) |
关键消融发现¶
- 向量量化影响模型表达力主要因为优化挑战,而非离散/连续格式差异
- 结构 token 保留了氨基酸 token 的大部分信息但对噪声更敏感
- 重建质量与 codebook 质量不一致相关——两者都需要单独评估
- 放大 VQ-VAE 编码器的收益呈亚指数递减
亮点与洞察¶
- 首个蛋白质结构分词统一基准:4 维度 + 12 任务 + 24 分割,填补了关键评估空白
- codebook collapse 的根因分析透彻:训练过程中未被选中的 code 不更新→分布漂移→进一步不被选中(正反馈)
- 重参数化解法简洁有效:一个线性层就让所有 code 都参与梯度更新
- \(K=512\) 的生物学合理性:与启发式方法 TERMs 的发现一致(~600 个子结构描述 50% PDB)
- IF 型 vs VQ-VAE 型的互补性:no single method dominates,各有擅长
局限性¶
- AminoAseed 在物理化学属性预测(FlexBFactor)上反而下降,说明 codebook 质量与所有下游任务的关系不总是正向的
- 评估聚焦于骨架结构输入,未覆盖全原子结构
- 仅用 10% 的过滤 PDB 数据预训练,可能限制模型上限
- 对 IF 型方法的 codebook 利用评估不适用(连续表示)
相关工作¶
- VQ-VAE PST:FoldSeek, ProTokens, ESM3
- IF PST:ProteinMPNN, MIF
- Codebook collapse:EMA 更新、k-means 初始化
- 蛋白质基准:TAPE, ProteinGLUE
评分¶
⭐⭐⭐⭐ (4/5)
基准框架设计出色,四维度评估全面且科学。AminoAseed 方法虽简单但有效性好。消融和缩放研究深入,提供了大量有价值的洞察。美中不足是 AminoAseed 仍未缩小 VQ-VAE 与 IF 方法的差距。
相关论文¶
- [ICLR 2026] Protein as a Second Language for LLMs
- [ICML 2025] DeltaSHAP: Explaining Prediction Evolutions in Online Patient Monitoring with Shapley Values
- [ICML 2025] Scalable Non-Equivariant 3D Molecule Generation via Rotational Alignment
- [NeurIPS 2025] RAxSS: Retrieval-Augmented Sparse Sampling for Explainable Variable-Length Medical Time Series Classification
- [NeurIPS 2025] Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models