跳转至

CrossNovo: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation

会议: NeurIPS 2025
arXiv: 2510.08169
代码: 待确认
领域: 生物序列生成 / 蛋白质组学
关键词: 肽段测序, 自回归, 非自回归, CTC, 知识蒸馏

一句话总结

CrossNovo 融合自回归(AR)和非自回归(NAR)解码器,通过共享谱编码器 + 重要性退火 + 梯度阻断知识蒸馏,让 NAR 的双向全局理解增强 AR 的序列生成能力,在 9-Species 基准上氨基酸精度达 0.811(+2.6%)、肽段召回 0.654(+5.3%)。

研究背景与动机

  1. 领域现状:从质谱数据做 de novo 肽段测序是蛋白质组学的核心任务。AR 模型(如 ContraNovo)逐步生成序列但缺乏全局视野;NAR 模型(如 PrimeNovo)并行生成但训练不稳定。
  2. 现有痛点:AR 在遇到相似质量的氨基酸(如 I/L、K/Q)时容易犯错——因为每步只看局部历史;NAR 虽有双向注意力但生成连贯性差、训练不稳。
  3. 核心矛盾:AR 的因果依赖保证生成连贯性但限制全局信息获取;NAR 的双向理解能力强但无法保证序列一致性。
  4. 本文要解决什么? 在保持 AR 生成质量的前提下,引入 NAR 的双向表征来增强 AR 的全局理解能力。
  5. 切入角度:共享编码器让两个解码器学到互补的表征→NAR 表征作为额外上下文蒸馏给 AR→梯度阻断防止 AR 的损失破坏 NAR 特征。
  6. 核心 idea 一句话:NAR 解码器提供双向全局表征,通过梯度阻断的跨解码器注意力蒸馏给 AR 解码器,结合共享质谱编码器实现 hybrid 序列生成。

方法详解

整体框架

输入质谱 → 共享谱编码器(Transformer,域适配正弦编码处理 m/z-intensity 对)→ 编码特征 \(E^{(b)}\)AR 解码器(因果自注意力 + 交叉注意力到 \(E^{(b)}\) + 前缀/后缀质量约束)+ NAR 解码器(非因果自注意力 + 交叉注意力到 \(E^{(b)}\),CTC 损失)→ 两阶段训练:多任务学习(重要性退火) → 知识蒸馏(梯度阻断)

关键设计

  1. 共享谱编码器 + 质量约束:
  2. 做什么:将质谱数据编码为共享特征,同时为 AR 提供生化先验
  3. 核心思路:m/z-intensity 对用域适配正弦编码(适配值域范围),\(b\) 层 Transformer 自注意力。AR 每步额外接收前缀/后缀质量约束(已生成序列的累积质量和剩余质量)
  4. 设计动机:共享编码器确保两个解码器看到一致的谱表征;质量约束为 AR 注入生化知识

  5. 重要性退火多任务训练(Stage 1):

  6. 做什么:联合训练 AR(CE 损失)和 NAR(CTC 损失),动态调整权重
  7. 核心思路:\(\mathcal{L} = \lambda_{AT} \mathcal{L}_{AT} + (1-\lambda_{AT}) \mathcal{L}_{NAT}\),其中 \(\lambda_{AT}(i) = i/T_{total}\)——早期偏重 NAR(学习全局模式),后期偏重 AR(精细指导序列生成)
  8. 设计动机:NAR 学习全局双向理解更快(并行),AR 的精细指导需要 NAR 已经学到好的表征

  9. 梯度阻断知识蒸馏(Stage 2):

  10. 做什么:将 NAR 的双向表征蒸馏到 AR 中
  11. 核心思路:冻结编码器+NAR,微调 AR。AR 的交叉注意力同时 attend 到 \([\mathbb{GB}(V^{(L')}) \oplus E^{(b)}]\)——NAR 最后一层特征(梯度阻断 \(\mathbb{GB}\)=detach)拼接编码器特征
  12. 设计动机:梯度阻断至关重要——消融实验表明不加 GB 会导致梯度爆炸。NAR 的双向特征给 AR 提供全局视角但不反过来被 AR 损失污染

损失函数 / 训练策略

  • AR: 交叉熵 \(\mathcal{L}_{AT} = -\sum_t \log p(a_t | a_{<t}, \mathcal{S})\)
  • NAR: CTC 损失(处理变长对齐)
  • 8×A100,AdamW lr=5e-4,cosine退火,最优 beam size=5

实验关键数据

主实验

基准 指标 CrossNovo ContraNovo PrimeNovo(NAR)
9-Species-v1 AA精度 0.811 0.785 0.788
9-Species-v1 肽段召回 0.654 0.621 0.638
9-Species-v2 AA精度 0.906 0.882 0.891
9-Species-v2 肽段召回 0.786 0.752 0.777

消融实验

配置 AA精度 肽段召回 说明
无梯度阻断 梯度爆炸
无共享编码器 0.698 0.546 严重下降
完整模型 0.811 0.654 最优

关键发现

  • 在 9 个物种上全面超越所有 baseline,在 AR 擅长的物种(Human, Mouse)提升 +9%
  • 相似质量氨基酸(I/L, K/Q)的区分精度一致最优
  • 零样本抗体测序提升 5% 肽段召回,证明泛化能力
  • 梯度阻断是训练成功的关键——没有它会导致梯度爆炸

亮点与洞察

  • AR+NAR 融合的知识蒸馏范式很通用:NAR 提供全局表征 → 梯度阻断蒸馏给 AR 的思路可迁移到其他序列生成任务(如语音识别、机器翻译)
  • 重要性退火是简洁有效的课程策略:早期让全局理解先成熟,后期精化序列生成,避免了复杂的训练调度

局限性 / 可改进方向

  • 两阶段训练增加了流程复杂度
  • beam search 增加推理延迟(beam=5 最优但减速)
  • 仅在肽段测序上验证,未测试其他生物序列(如 RNA)
  • NAR 解码器在推理时不使用(只用于蒸馏),资源利用率低

相关工作与启发

  • vs ContraNovo: 纯 AR 模型,缺乏全局视野;CrossNovo 用 NAR 蒸馏弥补
  • vs PrimeNovo: 纯 NAR 模型,生成连贯性差;CrossNovo 保持 AR 的序列一致性
  • vs CTC-based 方法: CTC 用于 NAR 训练而非推理,避免了 CTC 的解码退化问题

评分

  • 新颖性: ⭐⭐⭐⭐ AR+NAR 融合 + 梯度阻断蒸馏的设计有新意
  • 实验充分度: ⭐⭐⭐⭐ 多基准 + 消融 + 下游抗体任务
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 为序列生成中 AR/NAR 融合提供了通用范式