SpecMER: Fast Protein Generation with K-mer Guided Speculative Decoding¶

会议: NeurIPS 2025
arXiv: 2509.21689
代码: https://github.com/amirgroup-codes/SpecMER.git
领域: 蛋白质生成 / 高效推理
关键词: 投机解码, K-mer引导, 蛋白质语言模型, MSA, 批量选择

一句话总结¶

SpecMER 将投机解码引入蛋白质序列生成，用 K-mer 引导的批量选择策略从 draft 模型的多个候选中选取最符合进化保守性的序列供 target 模型验证，在保持分布一致性的同时实现 24-32% 加速，且生成序列的 NLL 和 pLDDT 结构置信度显著优于无引导的 baseline。

领域现状：蛋白质语言模型（如 ProGen2）通过自回归方式生成功能性蛋白质序列。生成 20000 条 200 AA 序列需要 ~65 小时（A6000）。
现有痛点：标准投机解码用小模型 draft + 大模型 verify 加速推理，但 draft 模型不了解蛋白质的结构/功能约束，生成的候选序列可能偏离生物学合理分布，导致接受率低。
核心矛盾：投机解码的加速依赖 draft 与 target 的分布匹配度；蛋白质生成中 draft 模型无法捕获进化/结构约束，匹配度差。
本文要解决什么？ 在投机解码框架中引入生物学先验（K-mer 频率），提高 draft 候选的质量从而提升接受率和加速比。
切入角度：多序列比对（MSA）包含了该蛋白质家族的进化保守信息。从 MSA 中提取 K-mer 频率分布作为评分函数，从多个 draft 候选中选最优。
核心 idea 一句话：从 MSA 提取 K-mer 频率 → draft 模型批量采样 c 个候选 → K-mer 评分选最优 → target 模型验证 = 生物学引导的投机解码。

目标蛋白质的 MSA → 提取 K-mer 频率分布（k=1,3,5）→ draft 模型（ProGen2-S）批量采样 \(c\) 个候选序列 → K-mer 评分函数排序 → 选最高分候选 → target 模型（ProGen2-M/XL）最大耦合验证 → 接受/拒绝

K-mer 引导评分:
做什么：从 MSA 提取进化保守性信号评估候选序列
核心思路：\(\text{Score}(s) = \frac{1}{L}\sum_{k \in K}\sum_{i=0}^{L-k} P_k(s(i:i+k))\)，其中 \(P_k\) 是从 MSA 中计算的 k-mer 归一化频率。使用加法（而非乘法）避免未见 k-mer 导致的零分问题
设计动机：MSA 编码了该蛋白质家族的氨基酸偏好模式；K-mer 评分是轻量的（不需要结构预测），但能有效衡量序列与进化保守性的一致程度
批量选择策略（Batch-and-Select）:
做什么：从多个 draft 候选中选最优
核心思路：draft 模型一次采样 \(c\) 个候选（\(c=1,3,5\)），用 K-mer 评分选最高分，再提交给 target 验证。Proposition 4.4: 期望接受概率 \(E[A^*] = 1-(1-\alpha)^m - \varepsilon\)，\(\varepsilon\) 是误排损失
设计动机：增大 \(c\) 提高选中高质量候选的概率，但也增加计算成本。\(c=3\) 是最优权衡
最大耦合验证:
做什么：保证生成序列与 target 模型分布一致
核心思路：标准投机解码的 token 级接受/拒绝机制——若 draft token 概率 ≤ target 概率则接受，否则按比例拒绝
设计动机：数学保证输出分布与单独用 target 模型完全一致

蛋白质	方法	NLL↓	pLDDT↑	加速
GFP	Target only	2.45±0.42	—	1×
GFP	SpecMER	1.09±0.64	↑	1.32×
RBP1	Target only	2.73±0.19	0.571	1×
RBP1	SpecMER	2.41±0.40	0.740	1.24×
Bgl3	Target only	0.91±0.11	—	1×
Bgl3	SpecMER	0.80±0.17	↑	1.32×