AntigenLM: Structure-Aware DNA Language Modeling for Influenza¶

会议: ICLR 2026
arXiv: 2602.09067
代码: https://github.com/peilab-cnic/AntigenLM (有)
领域: 生物序列生成 / DNA语言模型
关键词: DNA语言模型, 流感病毒预测, 功能单元编码, 全基因组建模, 疫苗设计

一句话总结¶

AntigenLM 是一个保留基因组功能单元完整性的 GPT-2 风格 DNA 语言模型，通过在流感病毒全基因组上预训练并微调，能够自回归预测未来流行毒株的抗原序列，在氨基酸错配率上显著优于进化模型 beth-1 和通用基因组模型。

研究背景与动机¶

领域现状：流感病毒快速进化以逃逸宿主免疫，疫苗株需频繁更新。当前 WHO 疫苗推荐依赖系统发育树动态（如 LBI）和位点级进化预测模型（如 beth-1）。
现有痛点：
位点级模型（beth-1）将突变视为独立事件，无法捕捉跨片段的协同进化
通用基因组基础模型（DNABERT、HyenaDNA）在多物种异构语料上训练，丢失了物种特异性结构信息
蛋白质级模型（ESM、ProtGPT2）完全忽略了同义突变、非编码调控元件、密码子适应性等核苷酸层面的进化机制
核心矛盾：病毒进化受全基因组多片段协调互作驱动（RNA-RNA 互作、片段重配约束、聚合酶-抗原协同适应），碎片化建模丢失关键信号
本文要解决什么：如何构建一个保留功能单元完整性的 DNA 语言模型，在核苷酸层面捕捉全基因组依赖关系，用于准确预测流感抗原序列
切入角度：流感基因组紧凑（~13k 核苷酸），适合用单个 Transformer 全基因组建模；通过保持 8 个基因片段的固定顺序和完整边界，让模型学习跨片段的共进化模式
核心 idea 一句话：在预训练阶段保持基因组功能单元的完整性和正确排列，使 DNA 语言模型能捕捉跨片段的高阶进化约束

方法详解¶

整体框架¶

AntigenLM 采用 GPT-2 风格的 decoder-only Transformer 架构，输入是流感 A 型病毒的全基因组核苷酸序列（最长 13k tokens），输出是自回归生成的下一个核苷酸。Pipeline 分两阶段：(1) 在 54,512 个完整流感基因组上无监督预训练；(2) 针对抗原序列预测和亚型分类两个下游任务分别微调。

关键设计¶

功能单元感知预训练 (Functional-Unit–Aware Pretraining):
做什么：将 8 个基因片段（PB2, PB1, PA, HA, NP, NA, MP, NS）按从大到小的固定顺序拼接成单条全基因组序列
核心思路：每条训练样本保持完整基因组，13k 位置编码范围覆盖全基因组，不做截断或分片。用标准因果语言模型损失 \(\mathcal{L}_{\text{CLM}} = -\sum_{t=1}^{T-1} \log p(x_{t+1} \mid x_{\leq t})\) 训练
设计动机：保持片段顺序和边界完整性，让 Transformer 的注意力机制能建模跨片段的共进化依赖（如 HA-NA 之间的补偿性突变），这是碎片化训练无法实现的
与之前方法的区别：通用 DNA 模型在多物种异构语料上训练，丢失物种特有结构；本文针对流感病毒单物种、保持生物学结构
两阶段功能单元编码策略:
做什么：预训练阶段用隐式位置对齐，微调阶段用显式哨兵标记
核心思路：预训练时靠固定片段顺序+位置编码隐式学习片段边界；微调时引入 <HA>、<NA>、<sep> 等特殊 token 显式分隔功能区域，引导注意力聚焦并约束解码不跨片段延续
设计动机：预训练阶段不加标记让模型自由学习结构，微调阶段加标记精准控制生成——兼顾了通用性和可控性
时序预测微调方案:
做什么：用连续 3 个月的 HA/NA 序列预测下一月的抗原序列
核心思路：输入格式为 \(\text{block}^{(1)}\text{block}^{(2)}\text{block}^{(3)}\text{block}^{(\star)}\)，其中每个 block = <subtype><HA>HA<NA>NA<sep>。训练时优化全序列的因果 LM 损失，推理时喂入 3 个历史 block 后自回归生成未来 block
设计动机：串联多个时间点的抗原序列隐式编码进化轨迹，让模型从序列变化模式中推断下一步进化方向
双头多任务设计:
做什么：共享 Transformer backbone + LM head（预测下一核苷酸）+ Classification head（亚型分类）
核心思路：LM head 与 embedding 矩阵权重绑定；Classification head 从哨兵 token 位置提取隐状态投射为亚型 logits，用交叉熵训练
设计动机：生成任务捕捉全局进化动态，分类任务提供监督信号改善表示质量，两者共享 backbone 互相增益

损失函数 / 训练策略¶

预训练：标准因果 LM 损失，AdamW 优化器（学习率 \(1 \times 10^{-4}\)，线性 warmup 5% + cosine decay，dropout 0.1，梯度裁剪 1.0）
有效 batch size = 32 genomes/step（8 GPU × 1 sample × 4 梯度累积）
模型规模紧凑：6 层 Transformer，384 hidden dim，6 attention heads，FFN 内部维度 1536

实验关键数据¶

主实验 — 下季抗原序列预测（日本，post-2022）¶

方法	H1N1-HA AA错配	H3N2-HA AA错配	H1N1-NA AA错配	H3N2-NA AA错配
WHO 当前系统	~10+	~10+	~2	~5+
beth-1	~6-8	~6-8	~1-2	~3-4
LBI	较高	较高	—	—
AntigenLM	~3-4	~3-4	<1	~1-2

AntigenLM 在 H1N1-HA 和 H3N2-NA 上相比 WHO 推荐减少 >70% 错配，相比 beth-1 减少 ~50%
下月预测：HA 平均 3-4 个氨基酸错配（<1% of 566 AAs），NA 1-2 个（<0.5% of 469 AAs）

消融实验 — 预训练策略对比¶

预训练配置	下月预测 Token 困惑度	序列生成有效性	亚型分类 F1
Full-genome（完整模型）	1.26	高	99.81%
Incomplete-genome（随机裁剪）	3.55	低（常生成无效序列）	较低，亚型混淆多
Segment-wise（单片段）	4.42	中等	较低
Antigen-only (nuc)	4.56	中等	100%（因为亚型由抗原决定）
Antigen-only (protein)	—	中等	100%

关键发现¶

全基因组上下文至关重要：去掉非 HA/NA 内部片段后困惑度从 1.26 升至 4.56，说明 PB1/PB2/PA 等片段提供有意义的预测信号
功能单元完整性比数据量更重要：Incomplete-genome 使用相同数据量但破坏片段边界，效果最差
跨亚型泛化：H7N9 仅占预训练数据 4.68%、微调数据 0.3%（48 条序列），AntigenLM 仍能准确预测
地理泛化：在完全未见过的美国数据上（训练仅用欧洲+亚洲），AntigenLM 仍显著优于 beth-1

亮点与洞察¶

功能单元保持原则可推广：不仅适用于流感，任何具有明确功能单元结构的基因组（如分段 RNA 病毒）都可以采用类似的结构感知预训练策略
紧凑模型+领域特化的胜利：6 层 384 维的小模型，因为针对流感全基因组专门设计，击败了参数量大得多的通用基因组模型
两阶段编码的巧妙之处：预训练时不加标记让模型自由学习结构，微调时加标记精准控制生成——兼顾了通用性和可控性

局限性 / 可改进方向¶

预测本质上是概率性的，应作为专家决策的补充而非替代
仅在流感 A 型上验证，对其他病原体（如 SARS-CoV-2、HIV）的泛化能力未知
模型规模较小（6 层），对于更复杂的基因组可能需要扩展
训练数据依赖 GISAID，存在地理采样偏差

评分¶

新颖性: ⭐⭐⭐⭐ 功能单元感知预训练是新颖的设计原则，但整体架构是标准 GPT-2
实验充分度: ⭐⭐⭐⭐⭐ 5 种预训练消融 + 3 类方法对比 + 跨亚型/跨地理泛化，非常全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，动机推导完整
价值: ⭐⭐⭐⭐ 对疫苗设计有直接应用价值，功能单元保持原则有广泛借鉴意义