CrossNovo: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation¶
会议: NeurIPS 2025
arXiv: 2510.08169
代码: 待确认
领域: 生物序列生成 / 蛋白质组学
关键词: 肽段测序, 自回归, 非自回归, CTC, 知识蒸馏
一句话总结¶
CrossNovo 融合自回归(AR)和非自回归(NAR)解码器,通过共享谱编码器 + 重要性退火 + 梯度阻断知识蒸馏,让 NAR 的双向全局理解增强 AR 的序列生成能力,在 9-Species 基准上氨基酸精度达 0.811(+2.6%)、肽段召回 0.654(+5.3%)。
研究背景与动机¶
- 领域现状:从质谱数据做 de novo 肽段测序是蛋白质组学的核心任务。AR 模型(如 ContraNovo)逐步生成序列但缺乏全局视野;NAR 模型(如 PrimeNovo)并行生成但训练不稳定。
- 现有痛点:AR 在遇到相似质量的氨基酸(如 I/L、K/Q)时容易犯错——因为每步只看局部历史;NAR 虽有双向注意力但生成连贯性差、训练不稳。
- 核心矛盾:AR 的因果依赖保证生成连贯性但限制全局信息获取;NAR 的双向理解能力强但无法保证序列一致性。
- 本文要解决什么? 在保持 AR 生成质量的前提下,引入 NAR 的双向表征来增强 AR 的全局理解能力。
- 切入角度:共享编码器让两个解码器学到互补的表征→NAR 表征作为额外上下文蒸馏给 AR→梯度阻断防止 AR 的损失破坏 NAR 特征。
- 核心 idea 一句话:NAR 解码器提供双向全局表征,通过梯度阻断的跨解码器注意力蒸馏给 AR 解码器,结合共享质谱编码器实现 hybrid 序列生成。
方法详解¶
整体框架¶
输入质谱 → 共享谱编码器(Transformer,域适配正弦编码处理 m/z-intensity 对)→ 编码特征 \(E^{(b)}\) → AR 解码器(因果自注意力 + 交叉注意力到 \(E^{(b)}\) + 前缀/后缀质量约束)+ NAR 解码器(非因果自注意力 + 交叉注意力到 \(E^{(b)}\),CTC 损失)→ 两阶段训练:多任务学习(重要性退火) → 知识蒸馏(梯度阻断)
关键设计¶
- 共享谱编码器 + 质量约束:
- 做什么:将质谱数据编码为共享特征,同时为 AR 提供生化先验
- 核心思路:m/z-intensity 对用域适配正弦编码(适配值域范围),\(b\) 层 Transformer 自注意力。AR 每步额外接收前缀/后缀质量约束(已生成序列的累积质量和剩余质量)
-
设计动机:共享编码器确保两个解码器看到一致的谱表征;质量约束为 AR 注入生化知识
-
重要性退火多任务训练(Stage 1):
- 做什么:联合训练 AR(CE 损失)和 NAR(CTC 损失),动态调整权重
- 核心思路:\(\mathcal{L} = \lambda_{AT} \mathcal{L}_{AT} + (1-\lambda_{AT}) \mathcal{L}_{NAT}\),其中 \(\lambda_{AT}(i) = i/T_{total}\)——早期偏重 NAR(学习全局模式),后期偏重 AR(精细指导序列生成)
-
设计动机:NAR 学习全局双向理解更快(并行),AR 的精细指导需要 NAR 已经学到好的表征
-
梯度阻断知识蒸馏(Stage 2):
- 做什么:将 NAR 的双向表征蒸馏到 AR 中
- 核心思路:冻结编码器+NAR,微调 AR。AR 的交叉注意力同时 attend 到 \([\mathbb{GB}(V^{(L')}) \oplus E^{(b)}]\)——NAR 最后一层特征(梯度阻断 \(\mathbb{GB}\)=detach)拼接编码器特征
- 设计动机:梯度阻断至关重要——消融实验表明不加 GB 会导致梯度爆炸。NAR 的双向特征给 AR 提供全局视角但不反过来被 AR 损失污染
损失函数 / 训练策略¶
- AR: 交叉熵 \(\mathcal{L}_{AT} = -\sum_t \log p(a_t | a_{<t}, \mathcal{S})\)
- NAR: CTC 损失(处理变长对齐)
- 8×A100,AdamW lr=5e-4,cosine退火,最优 beam size=5
实验关键数据¶
主实验¶
| 基准 | 指标 | CrossNovo | ContraNovo | PrimeNovo(NAR) |
|---|---|---|---|---|
| 9-Species-v1 | AA精度 | 0.811 | 0.785 | 0.788 |
| 9-Species-v1 | 肽段召回 | 0.654 | 0.621 | 0.638 |
| 9-Species-v2 | AA精度 | 0.906 | 0.882 | 0.891 |
| 9-Species-v2 | 肽段召回 | 0.786 | 0.752 | 0.777 |
消融实验¶
| 配置 | AA精度 | 肽段召回 | 说明 |
|---|---|---|---|
| 无梯度阻断 | — | — | 梯度爆炸 |
| 无共享编码器 | 0.698 | 0.546 | 严重下降 |
| 完整模型 | 0.811 | 0.654 | 最优 |
关键发现¶
- 在 9 个物种上全面超越所有 baseline,在 AR 擅长的物种(Human, Mouse)提升 +9%
- 相似质量氨基酸(I/L, K/Q)的区分精度一致最优
- 零样本抗体测序提升 5% 肽段召回,证明泛化能力
- 梯度阻断是训练成功的关键——没有它会导致梯度爆炸
亮点与洞察¶
- AR+NAR 融合的知识蒸馏范式很通用:NAR 提供全局表征 → 梯度阻断蒸馏给 AR 的思路可迁移到其他序列生成任务(如语音识别、机器翻译)
- 重要性退火是简洁有效的课程策略:早期让全局理解先成熟,后期精化序列生成,避免了复杂的训练调度
局限性 / 可改进方向¶
- 两阶段训练增加了流程复杂度
- beam search 增加推理延迟(beam=5 最优但减速)
- 仅在肽段测序上验证,未测试其他生物序列(如 RNA)
- NAR 解码器在推理时不使用(只用于蒸馏),资源利用率低
相关工作与启发¶
- vs ContraNovo: 纯 AR 模型,缺乏全局视野;CrossNovo 用 NAR 蒸馏弥补
- vs PrimeNovo: 纯 NAR 模型,生成连贯性差;CrossNovo 保持 AR 的序列一致性
- vs CTC-based 方法: CTC 用于 NAR 训练而非推理,避免了 CTC 的解码退化问题
评分¶
- 新颖性: ⭐⭐⭐⭐ AR+NAR 融合 + 梯度阻断蒸馏的设计有新意
- 实验充分度: ⭐⭐⭐⭐ 多基准 + 消融 + 下游抗体任务
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐⭐ 为序列生成中 AR/NAR 融合提供了通用范式