跳转至

AntigenLM: Structure-Aware DNA Language Modeling for Influenza

会议: ICLR 2026
arXiv: 2602.09067
代码: https://github.com/peilab-cnic/AntigenLM (有)
领域: 生物序列生成 / DNA语言模型
关键词: DNA语言模型, 流感病毒预测, 功能单元编码, 全基因组建模, 疫苗设计

一句话总结

AntigenLM 是一个保留基因组功能单元完整性的 GPT-2 风格 DNA 语言模型,通过在流感病毒全基因组上预训练并微调,能够自回归预测未来流行毒株的抗原序列,在氨基酸错配率上显著优于进化模型 beth-1 和通用基因组模型。

研究背景与动机

  1. 领域现状:流感病毒快速进化以逃逸宿主免疫,疫苗株需频繁更新。当前 WHO 疫苗推荐依赖系统发育树动态(如 LBI)和位点级进化预测模型(如 beth-1)。
  2. 现有痛点
  3. 位点级模型(beth-1)将突变视为独立事件,无法捕捉跨片段的协同进化
  4. 通用基因组基础模型(DNABERT、HyenaDNA)在多物种异构语料上训练,丢失了物种特异性结构信息
  5. 蛋白质级模型(ESM、ProtGPT2)完全忽略了同义突变、非编码调控元件、密码子适应性等核苷酸层面的进化机制
  6. 核心矛盾:病毒进化受全基因组多片段协调互作驱动(RNA-RNA 互作、片段重配约束、聚合酶-抗原协同适应),碎片化建模丢失关键信号
  7. 本文要解决什么:如何构建一个保留功能单元完整性的 DNA 语言模型,在核苷酸层面捕捉全基因组依赖关系,用于准确预测流感抗原序列
  8. 切入角度:流感基因组紧凑(~13k 核苷酸),适合用单个 Transformer 全基因组建模;通过保持 8 个基因片段的固定顺序和完整边界,让模型学习跨片段的共进化模式
  9. 核心 idea 一句话:在预训练阶段保持基因组功能单元的完整性和正确排列,使 DNA 语言模型能捕捉跨片段的高阶进化约束

方法详解

整体框架

AntigenLM 采用 GPT-2 风格的 decoder-only Transformer 架构,输入是流感 A 型病毒的全基因组核苷酸序列(最长 13k tokens),输出是自回归生成的下一个核苷酸。Pipeline 分两阶段:(1) 在 54,512 个完整流感基因组上无监督预训练;(2) 针对抗原序列预测和亚型分类两个下游任务分别微调。

关键设计

  1. 功能单元感知预训练 (Functional-Unit–Aware Pretraining):
  2. 做什么:将 8 个基因片段(PB2, PB1, PA, HA, NP, NA, MP, NS)按从大到小的固定顺序拼接成单条全基因组序列
  3. 核心思路:每条训练样本保持完整基因组,13k 位置编码范围覆盖全基因组,不做截断或分片。用标准因果语言模型损失 \(\mathcal{L}_{\text{CLM}} = -\sum_{t=1}^{T-1} \log p(x_{t+1} \mid x_{\leq t})\) 训练
  4. 设计动机:保持片段顺序和边界完整性,让 Transformer 的注意力机制能建模跨片段的共进化依赖(如 HA-NA 之间的补偿性突变),这是碎片化训练无法实现的
  5. 与之前方法的区别:通用 DNA 模型在多物种异构语料上训练,丢失物种特有结构;本文针对流感病毒单物种、保持生物学结构

  6. 两阶段功能单元编码策略:

  7. 做什么:预训练阶段用隐式位置对齐,微调阶段用显式哨兵标记
  8. 核心思路:预训练时靠固定片段顺序+位置编码隐式学习片段边界;微调时引入 <HA><NA><sep> 等特殊 token 显式分隔功能区域,引导注意力聚焦并约束解码不跨片段延续
  9. 设计动机:预训练阶段不加标记让模型自由学习结构,微调阶段加标记精准控制生成——兼顾了通用性和可控性

  10. 时序预测微调方案:

  11. 做什么:用连续 3 个月的 HA/NA 序列预测下一月的抗原序列
  12. 核心思路:输入格式为 \(\text{block}^{(1)}\text{block}^{(2)}\text{block}^{(3)}\text{block}^{(\star)}\),其中每个 block = <subtype><HA>HA<NA>NA<sep>。训练时优化全序列的因果 LM 损失,推理时喂入 3 个历史 block 后自回归生成未来 block
  13. 设计动机:串联多个时间点的抗原序列隐式编码进化轨迹,让模型从序列变化模式中推断下一步进化方向

  14. 双头多任务设计:

  15. 做什么:共享 Transformer backbone + LM head(预测下一核苷酸)+ Classification head(亚型分类)
  16. 核心思路:LM head 与 embedding 矩阵权重绑定;Classification head 从哨兵 token 位置提取隐状态投射为亚型 logits,用交叉熵训练
  17. 设计动机:生成任务捕捉全局进化动态,分类任务提供监督信号改善表示质量,两者共享 backbone 互相增益

损失函数 / 训练策略

  • 预训练:标准因果 LM 损失,AdamW 优化器(学习率 \(1 \times 10^{-4}\),线性 warmup 5% + cosine decay,dropout 0.1,梯度裁剪 1.0)
  • 有效 batch size = 32 genomes/step(8 GPU × 1 sample × 4 梯度累积)
  • 模型规模紧凑:6 层 Transformer,384 hidden dim,6 attention heads,FFN 内部维度 1536

实验关键数据

主实验 — 下季抗原序列预测(日本,post-2022)

方法 H1N1-HA AA错配 H3N2-HA AA错配 H1N1-NA AA错配 H3N2-NA AA错配
WHO 当前系统 ~10+ ~10+ ~2 ~5+
beth-1 ~6-8 ~6-8 ~1-2 ~3-4
LBI 较高 较高
AntigenLM ~3-4 ~3-4 <1 ~1-2
  • AntigenLM 在 H1N1-HA 和 H3N2-NA 上相比 WHO 推荐减少 >70% 错配,相比 beth-1 减少 ~50%
  • 下月预测:HA 平均 3-4 个氨基酸错配(<1% of 566 AAs),NA 1-2 个(<0.5% of 469 AAs)

消融实验 — 预训练策略对比

预训练配置 下月预测 Token 困惑度 序列生成有效性 亚型分类 F1
Full-genome(完整模型) 1.26 99.81%
Incomplete-genome(随机裁剪) 3.55 低(常生成无效序列) 较低,亚型混淆多
Segment-wise(单片段) 4.42 中等 较低
Antigen-only (nuc) 4.56 中等 100%(因为亚型由抗原决定)
Antigen-only (protein) 中等 100%

关键发现

  • 全基因组上下文至关重要:去掉非 HA/NA 内部片段后困惑度从 1.26 升至 4.56,说明 PB1/PB2/PA 等片段提供有意义的预测信号
  • 功能单元完整性比数据量更重要:Incomplete-genome 使用相同数据量但破坏片段边界,效果最差
  • 跨亚型泛化:H7N9 仅占预训练数据 4.68%、微调数据 0.3%(48 条序列),AntigenLM 仍能准确预测
  • 地理泛化:在完全未见过的美国数据上(训练仅用欧洲+亚洲),AntigenLM 仍显著优于 beth-1

亮点与洞察

  • 功能单元保持原则可推广:不仅适用于流感,任何具有明确功能单元结构的基因组(如分段 RNA 病毒)都可以采用类似的结构感知预训练策略
  • 紧凑模型+领域特化的胜利:6 层 384 维的小模型,因为针对流感全基因组专门设计,击败了参数量大得多的通用基因组模型
  • 两阶段编码的巧妙之处:预训练时不加标记让模型自由学习结构,微调时加标记精准控制生成——兼顾了通用性和可控性

局限性 / 可改进方向

  • 预测本质上是概率性的,应作为专家决策的补充而非替代
  • 仅在流感 A 型上验证,对其他病原体(如 SARS-CoV-2、HIV)的泛化能力未知
  • 模型规模较小(6 层),对于更复杂的基因组可能需要扩展
  • 训练数据依赖 GISAID,存在地理采样偏差

相关工作与启发

  • vs beth-1:beth-1 建模位点级独立突变,AntigenLM 建模跨片段协同进化,在所有任务上 AntigenLM 更优
  • vs HyenaDNA/DNABERT:通用 DNA 模型在多物种语料上训练丢失物种特异结构,生成的序列常无效(长度偏差大、标记缺失)
  • vs ProtGPT2:蛋白质级模型无法捕捉同义突变等核苷酸层面的进化信号

评分

  • 新颖性: ⭐⭐⭐⭐ 功能单元感知预训练是新颖的设计原则,但整体架构是标准 GPT-2
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 种预训练消融 + 3 类方法对比 + 跨亚型/跨地理泛化,非常全面
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,动机推导完整
  • 价值: ⭐⭐⭐⭐ 对疫苗设计有直接应用价值,功能单元保持原则有广泛借鉴意义