Protein Structure Tokenization via Geometric Byte Pair Encoding¶

会议: ICLR 2026
arXiv: 2511.11758
代码: GitHub
领域: 蛋白质AI / 结构tokenization
关键词: GeoBPE, Protein Structure Tokenizer, Hierarchical Vocabulary, Differentiable IK, Multi-resolution

一句话总结¶

提出 GeoBPE——首个将 BPE（字节对编码）从离散文本扩展到连续蛋白质骨架几何的 tokenizer，通过交替执行"局部合并（k-medoids聚类+量化）"和"全局校正（可微逆运动学）"构建层次化结构 motif 词汇表，以 >10× 压缩比和 >10× 数据效率超越 VQ-VAE 类 PST，在 12 个下游任务 24 个测试集上排名第一。

研究背景与动机¶

领域现状：蛋白质语言模型（PLMs）如 ESM 系列在序列上取得巨大成功，但不显式建模折叠几何，在结构依赖的功能任务上表现受限。蛋白质结构 tokenizer（PST）是连接序列和结构的关键桥梁，当前主流是 VQ-VAE 方法（ESM3、FoldSeek 的 3Di 字母表、ProToken 等），通过训练自编码器将连续结构映射到离散码本。

现有痛点：VQ-VAE 类 PST 存在三个根本性限制：（1）固定码本容易崩溃——codebook collapse 导致 token 使用不均衡，压缩效率受限；（2）向量作为 token 不可解释——码本中的实向量行无法像 BPE 子词那样展现层次化的组合关系；（3）固定 token 大小阻碍多尺度分析——所有 token 都是固定残基长度，无法适应自然存在的可变长度功能域。此外 VQ-VAE 的 OOD 泛化很差（test/train RMSD 比可达 6.4×）。

核心矛盾：蛋白质结构是连续的、有噪声的、多尺度的，而 BPE 是为离散符号设计的。核心难题是如何在离散化过程中保持全局几何一致性——局部量化会引入累积漂移（drift），导致远端原子坐标偏离。

切入角度：蛋白质折叠由模块化子结构组成（helix、sheet、loop 等），天然适合 BPE 的"迭代合并频繁对"策略。关键观察是：局部量化引入的漂移可以通过优化边界处的"胶合角"（glue angles）来补偿，因为每个边界提供 3 个自由度（一个键角 + 两个二面角）。

核心 idea：将 BPE 从离散符号扩展到连续几何，通过"局部 k-medoids 量化 + 全局可微逆运动学漂移校正"的交替迭代，构建蛋白质结构的层次化 motif 词汇表。

方法详解¶

整体框架¶

GeoBPE 以蛋白质骨架的内坐标表示（键长、键角、二面角）为输入。算法从残基级初始化开始，交替执行四个步骤：（1）弹出最频繁的 Geo-Pair（相邻 motif 对），（2）用 k-medoids 在 RMSD 空间聚类获得代表性原型，（3）将所有 occurrence 量化到最近原型（硬替换内部参数），（4）用可微逆运动学优化边界胶合角以补偿量化漂移。每次迭代产生一个新的 motif 类型加入词汇表，同时更新分割和合并树。最终输出为层次化词汇表 \(\mathcal{V}\)、各骨架的分割 \(\mathcal{P}\) 和合并层次 \(\mathcal{F}\)。

关键设计¶

骨架几何表示与 Geo-Pair 定义
- 功能：将 3D 蛋白质骨架表示为可操作的内坐标系统
- 核心思路：每个残基 \(i\) 由 bond-residue 表示——三个原子坐标 \((N_i, CA_i, C_i)\) 对应键长 \(\ell^{N-CA}_i, \ell^{CA-C}_i, \ell^{C-N}_i\)，键角 \(\theta^{NCAC}_i, \theta^{CACN}_i\)，二面角 \(\psi_i\)。相邻残基通过胶合参数 \(\Gamma_i = \{\theta^{CNCA}_i, \phi_i, \omega_i\}\) 连接。连续块 \(\mathcal{M}_{p:q}\) 构成 motif，相邻 motif 对加上边界胶合角构成 Geo-Pair occurrence。通过 canonical hashable key 将所有 occurrence 映射到离散标识符，使 BPE 的"计数频率"操作可行
- 设计动机：内坐标表示是 SE(3) 不变的，消除了全局旋转/平移的影响，且自然将骨架分解为局部参数（motif 内部）和连接参数（胶合角），使"合并-量化-校正"的分离操作成为可能
K-medoids 聚类与自适应量化
- 功能：为每种 Geo-Pair 类型提取代表性结构原型（vocabulary entry）
- 核心思路：对最频繁 Geo-Pair key 的所有 occurrence，在 RMSD 度量空间上运行 k-medoids 聚类得到 \(K\) 个原型（medoid 本身是实际观测到的片段，具有结构可解释性）。量化步骤将每个非 medoid occurrence 的全部内部参数替换为其分配的 medoid 的参数（硬拷贝）。关键创新在于自适应多分辨率：量化是有损的，但每步可以从原始片段重新量化（不是在已量化结果上叠加），且 \(K\) 值可根据 motif 长度调整——小 motif 粗粒度、大 motif 细粒度，精确控制压缩-重建权衡
- 设计动机：BPE 对离散符号直接替换，但连续数据的"替换"是量化——需要在可能的构象变异中找到最佳代表。选择 medoid（而非 centroid）保证原型本身是物理合理的蛋白质片段
可微逆运动学（IK）漂移校正
- 功能：补偿量化引入的全局几何漂移
- 核心思路：量化将 occurrence 的内部变换 \(T^{\text{occ}}_u\) 替换为 medoid 的 \(T^{\text{med}}_u\)，产生漂移 \(\Delta T_u = T^{\text{occ}}_u (T^{\text{med}}_u)^{-1}\)。为补偿漂移，优化边界胶合角使新的链路变换 \(G^{\text{new}}_{i_{u}-1} \approx G^{\text{orig}}_{i_{u}-1} \cdot \Delta T_u\)。具体通过最小化端帧损失 \(\mathcal{L}_u(\Gamma) = w_R \|\log(\hat{R}^\top R^*)\|^2 + w_t \|\hat{t} - t^*\|^2\)，其中 \(\hat{F}\) 由前向运动学计算，\(F^*\) 为原始帧。实际采用全局批量优化——一次性优化骨架上所有胶合角自由度，最大化漂移补偿灵活性
- 设计动机：这是 GeoBPE 区别于简单离散化的核心技术。如果不做漂移校正，量化误差沿链累积，远端原子的 RMSD 会爆炸。每个边界的 3 个胶合自由度恰好提供了方向性补偿的参数空间

层次化归纳偏置传递¶

GeoBPE 输出的合并层次 \(\mathcal{F}\) 可作为递归计算树：叶节点用预训练 PLM（如 ESM3）特征初始化，沿父子关系向上聚合到 motif/蛋白质级表征，再向下传播回残基级。这使残基级嵌入具备了层次化结构感知，支持功能位点预测、折叠分类等下游任务。

实验关键数据¶

主实验（下游迁移性能，AUROC%）¶

任务	ProteinMPNN	MIF	FoldSeek	ProTokens	ESM3	VQ-VAE	AminoASeed	GeoBPE-Transfer
BindInt-Fold	51.83	50.38	53.18	44.66	44.30	47.25	47.11	59.19 (+33.6%)
BindBio-Fold	78.42	85.79	32.37	58.47	62.84	62.02	65.73	94.94 (+51.1%)
CatBio-Fold	82.49	85.85	56.33	67.68	65.33	67.58	65.95	95.01 (+45.4%)
Con-SupFam	84.68	92.66	51.31	70.64	80.53	74.60	86.60	84.84 (+5.4%)
平均 AUROC%	75.92	79.82	51.90	65.37	69.24	68.30	72.43	80.20 (+18.1%)

GeoBPE-Transfer 在 12 个任务 24 个测试中平均排名第一，相比 ESM3 提升 +18.13%（功能位点预测）。

消融实验（压缩-重建权衡 & OOD 泛化）¶

Tokenizer	BPR (bits/res)	Test RMSD (Å)	Test/Train RMSD 比	训练数据量
ESM3	~30× GeoBPE	较低	~1.0	236M 结构
ProToken	1× (参考)	参考	~1.0	~700K
VQ-VAE	中等	中等	6.4×	~48K
GeoBPE	0.27-0.36× ProToken	适中	1.16-1.28	~48K

GeoBPE 的 BPR 仅为 ProToken 的 27-36%（>10× 压缩优势），ESM3 的 1.6-2.1%（>50×），且 OOD 泛化极强（test/train RMSD 比 1.16-1.28 vs VQ-VAE 的 6.4）。GeoBPE 在仅 1% 训练数据上性能不降，展现 >10× 数据效率。

关键发现¶

层次化词汇表逆转了"离散化损害下游性能"的趋势：离散 VQ-VAE PST 通常因量化损失导致下游性能不如连续 PST，而 GeoBPE 的层次化归纳偏置使其超越所有连续和离散基线
GeoBPE token 与 CATH 功能家族对齐：token 边界与蛋白质结构域注释高度一致，支持专家可解释的案例分析
词汇表沿 Pareto 前沿平滑扩展：增大词汇表大小（600→21000）时，BPR-distortion 曲线平滑移动，这种弹性是 VQ-VAE（固定码本维度）不具备的
语言建模生成：配合 ~7.3M Transformer 进行无条件骨架生成，GeoBPE 生成的骨架 99% unique & designable，scTM 比 VQ-VAE 高达 49%

亮点与洞察¶

BPE 到连续几何的优雅扩展：核心难题是"连续数据如何计频率"和"量化后如何保持全局一致"，GeoBPE 用 canonical hashing（离散化 key）回答前者，用可微 IK（校正胶合角）回答后者，两个机制的结合非常精巧
Medoid 作为原型保证物理合理性：与 VQ-VAE 学习的抽象向量不同，medoid 是真实观测到的结构片段，每个 token 都有明确的物理意义，支持专家级解释
层次化词汇表的双重价值：既提供压缩-重建的多分辨率控制（tokenizer 本身的功能），又作为递归计算树的归纳偏置提升下游表征质量（意外收获）

局限与展望¶

计算复杂度：k-medoids 聚类 + 全局 IK 优化的迭代开销较高，虽然已通过限制采样数（\(M_{\max}=5000\)）缓解，但仍限制了大规模应用
仅处理骨架原子：当前仅覆盖 N-CA-C 骨架，未建模侧链构象，限制了对侧链依赖功能的建模
语言建模生成质量有限：使用的 Transformer 仅 7.3M 参数，生成质量还有很大提升空间
与端到端训练的比较不够公平：GeoBPE-Transfer 依赖 ESM3 的预训练特征，下游性能提升部分归功于 ESM3 的强大表征

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 BPE 原理扩展到连续蛋白质几何，理论和算法设计都有原创性突破
实验充分度: ⭐⭐⭐⭐⭐ 10 个研究问题覆盖压缩/重建/泛化/效率/下游/可解释性，24 个测试集，分析极为全面
写作质量: ⭐⭐⭐⭐ 数学符号严谨，算法描述清晰，但符号系统较复杂，学习曲线陡峭
价值: ⭐⭐⭐⭐⭐ 为蛋白质结构表示学习开辟了全新范式，层次化词汇表的思路对其他连续结构数据（分子、材料）也有启发