CrossNovo: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation¶

会议: NeurIPS 2025
arXiv: 2510.08169
代码: 待确认
领域: 生物序列生成 / 蛋白质组学
关键词: 肽段测序, 自回归, 非自回归, CTC, 知识蒸馏

一句话总结¶

CrossNovo 融合自回归（AR）和非自回归（NAR）解码器，通过共享谱编码器 + 重要性退火 + 梯度阻断知识蒸馏，让 NAR 的双向全局理解增强 AR 的序列生成能力，在 9-Species 基准上氨基酸精度达 0.811（+2.6%）、肽段召回 0.654（+5.3%）。

研究背景与动机¶

领域现状：从质谱数据做 de novo 肽段测序是蛋白质组学的核心任务。AR 模型（如 ContraNovo）逐步生成序列但缺乏全局视野；NAR 模型（如 PrimeNovo）并行生成但训练不稳定。
现有痛点：AR 在遇到相似质量的氨基酸（如 I/L、K/Q）时容易犯错——因为每步只看局部历史；NAR 虽有双向注意力但生成连贯性差、训练不稳。
核心矛盾：AR 的因果依赖保证生成连贯性但限制全局信息获取；NAR 的双向理解能力强但无法保证序列一致性。
本文要解决什么？ 在保持 AR 生成质量的前提下，引入 NAR 的双向表征来增强 AR 的全局理解能力。
切入角度：共享编码器让两个解码器学到互补的表征→NAR 表征作为额外上下文蒸馏给 AR→梯度阻断防止 AR 的损失破坏 NAR 特征。
核心 idea 一句话：NAR 解码器提供双向全局表征，通过梯度阻断的跨解码器注意力蒸馏给 AR 解码器，结合共享质谱编码器实现 hybrid 序列生成。

方法详解¶

整体框架¶

输入质谱 → 共享谱编码器（Transformer，域适配正弦编码处理 m/z-intensity 对）→ 编码特征 \(E^{(b)}\) → AR 解码器（因果自注意力 + 交叉注意力到 \(E^{(b)}\) + 前缀/后缀质量约束）+ NAR 解码器（非因果自注意力 + 交叉注意力到 \(E^{(b)}\)，CTC 损失）→ 两阶段训练：多任务学习(重要性退火) → 知识蒸馏(梯度阻断)

关键设计¶

共享谱编码器 + 质量约束:
做什么：将质谱数据编码为共享特征，同时为 AR 提供生化先验
核心思路：m/z-intensity 对用域适配正弦编码（适配值域范围），\(b\) 层 Transformer 自注意力。AR 每步额外接收前缀/后缀质量约束（已生成序列的累积质量和剩余质量）
设计动机：共享编码器确保两个解码器看到一致的谱表征；质量约束为 AR 注入生化知识
重要性退火多任务训练（Stage 1）:
做什么：联合训练 AR（CE 损失）和 NAR（CTC 损失），动态调整权重
核心思路：\(\mathcal{L} = \lambda_{AT} \mathcal{L}_{AT} + (1-\lambda_{AT}) \mathcal{L}_{NAT}\)，其中 \(\lambda_{AT}(i) = i/T_{total}\)——早期偏重 NAR（学习全局模式），后期偏重 AR（精细指导序列生成）
设计动机：NAR 学习全局双向理解更快（并行），AR 的精细指导需要 NAR 已经学到好的表征
梯度阻断知识蒸馏（Stage 2）:
做什么：将 NAR 的双向表征蒸馏到 AR 中
核心思路：冻结编码器+NAR，微调 AR。AR 的交叉注意力同时 attend 到 \([\mathbb{GB}(V^{(L')}) \oplus E^{(b)}]\)——NAR 最后一层特征（梯度阻断 \(\mathbb{GB}\)=detach）拼接编码器特征
设计动机：梯度阻断至关重要——消融实验表明不加 GB 会导致梯度爆炸。NAR 的双向特征给 AR 提供全局视角但不反过来被 AR 损失污染

损失函数 / 训练策略¶

AR: 交叉熵 \(\mathcal{L}_{AT} = -\sum_t \log p(a_t | a_{<t}, \mathcal{S})\)
NAR: CTC 损失（处理变长对齐）
8×A100，AdamW lr=5e-4，cosine退火，最优 beam size=5

实验关键数据¶

主实验¶

基准	指标	CrossNovo	ContraNovo	PrimeNovo(NAR)
9-Species-v1	AA精度	0.811	0.785	0.788
9-Species-v1	肽段召回	0.654	0.621	0.638
9-Species-v2	AA精度	0.906	0.882	0.891
9-Species-v2	肽段召回	0.786	0.752	0.777

消融实验¶

配置	AA精度	肽段召回	说明
无梯度阻断	—	—	梯度爆炸
无共享编码器	0.698	0.546	严重下降
完整模型	0.811	0.654	最优

关键发现¶

在 9 个物种上全面超越所有 baseline，在 AR 擅长的物种（Human, Mouse）提升 +9%
相似质量氨基酸（I/L, K/Q）的区分精度一致最优
零样本抗体测序提升 5% 肽段召回，证明泛化能力
梯度阻断是训练成功的关键——没有它会导致梯度爆炸

亮点与洞察¶

AR+NAR 融合的知识蒸馏范式很通用：NAR 提供全局表征 → 梯度阻断蒸馏给 AR 的思路可迁移到其他序列生成任务（如语音识别、机器翻译）
重要性退火是简洁有效的课程策略：早期让全局理解先成熟，后期精化序列生成，避免了复杂的训练调度

局限性 / 可改进方向¶

两阶段训练增加了流程复杂度
beam search 增加推理延迟（beam=5 最优但减速）
仅在肽段测序上验证，未测试其他生物序列（如 RNA）
NAR 解码器在推理时不使用（只用于蒸馏），资源利用率低

评分¶

新颖性: ⭐⭐⭐⭐ AR+NAR 融合 + 梯度阻断蒸馏的设计有新意
实验充分度: ⭐⭐⭐⭐ 多基准 + 消融 + 下游抗体任务
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 为序列生成中 AR/NAR 融合提供了通用范式