Gene Incremental Learning for Single-Cell Transcriptomics¶

会议: AAAI 2026
arXiv: 2511.13762
代码: GitHub
领域: 生物信息学 / 增量学习
关键词: 基因增量学习, 单细胞转录组学, 灾难性遗忘, Token增量学习, benchmark

一句话总结¶

本文提出了基因增量学习（GIL）框架，利用单细胞转录组学数据的无序性特点，将类增量学习（CIL）的范式扩展到 token（基因）维度，设计了基因回放和基因蒸馏两种基线方法，并建立了包含基因级回归和基因级分类两种评估方式的完整基准。

研究背景与动机¶

类增量学习（CIL）在计算机视觉领域已被广泛研究，其核心问题是模型在持续学习新类别时如何避免灾难性遗忘。然而，token 作为很多领域（NLP、生物信息学）中的基本元素，同样具有持续增长的特性（如新词不断被发明、新基因不断被发现），但 token 维度的增量学习一直被忽视。

这一研究空白主要源于语言数据的整体性（holistic nature）——在自然语言中，如果将不同词划分到不同阶段（如某阶段不出现「learning」这个词），要么需要排除含有该词的所有文本（大幅减少数据量），要么需要从文本中删除该词（改变原始语义），两种方案都不可行。

幸运的是，单细胞转录组学数据没有这个问题。在转录组学中，基因就是 token，每个样本由一组基因表达值组成（类似句子），且基因之间没有相对顺序，可以自由划分和重排。这使得设计基因增量学习框架成为可能。

核心 idea：利用转录组学数据的无序性来绕过语言数据的整体性障碍，首次建立 token 增量学习框架，并通过基因回放和基因蒸馏验证该框架中同样存在遗忘问题。

方法详解¶

整体框架¶

GIL 的 pipeline 如下：将全部基因分为基础基因集 \(B\)（每阶段都出现）和各阶段特有基因集 \(T^{s_1}, T^{s_2}, \ldots, T^{s_n}\)（不同阶段互不相交）。数据集同样独立划分为 \(\mathcal{D}^{s_1}, \ldots, \mathcal{D}^{s_n}\)。在阶段 \(k\)，模型只能看到包含基础基因和 \(T^{s_k}\) 的样本，然后在所有已见基因上进行评估。

基因学习通过掩码值预测（masked value prediction）实现：随机遮掩部分基因的表达值，让模型预测被遮掩的值，训练损失为 \(\mathcal{L}_{\text{tran}}(\mathcal{D}, \phi) = \frac{1}{N}\sum_{i=1}^{N}\sum_j \|v_{ij} - \hat{v}_{ij}\|^2\)。

关键设计¶

基础基因机制（Base Gene Mechanism）:
- 功能：保留一部分基因作为基础基因 \(B\)，在每个增量阶段都出现
- 核心思路：基因不像类别那样能单独表达样本含义，单个基因只是样本的一个组成部分。基础基因确保每个阶段的样本在转录组学语境下仍然有意义
- 设计动机：与 CIL 中类和样本直接对应不同，GIL 中基因和样本不对齐——每个样本包含所有基因。基础基因解决了"基因不足导致无意义样本"的风险
基因回放（Gene Replay）:
- 功能：在当前阶段训练时保留前序阶段的部分样本一起训练
- 核心思路：\(\mathcal{L}_{\text{dr},s_k} = \mathcal{L}_{\text{tran}}(\mathcal{D}^{s_k}, \phi) + \sum_{i=1}^{k-1}\mathcal{L}_{\text{tran}}(\mathcal{D}_{\text{dr}}^{s_i}, \phi)\)，其中 \(\mathcal{D}_{\text{dr}}^{s_i} \subset \mathcal{D}^{s_i}\) 是前序阶段的数据子集
- 设计动机：直接借鉴 CIL 中数据回放策略，通过保留旧样本来防止遗忘。回放样本越多，性能越接近 Oracle
基因蒸馏（Gene Distillation）:
- 功能：利用上一阶段的最优模型 \(\phi_{s_{k-1}}^*\) 对当前模型进行知识蒸馏
- 核心思路：\(\mathcal{L}_{\text{fd},s_k} = \frac{1}{N_k}\sum_{i=1}^{N_k}(\sum_j \|v_{ij} - \hat{v}_{ij}\|^2 + \lambda\|\hat{\bm{v}}_i - \hat{\bm{v}}_{i,s_{k-1}}^*\|^2)\)，即在掩码预测损失基础上加入对旧模型输出的模仿损失
- 设计动机：从 CIL 的知识蒸馏方法适配而来，假设旧模型能用基础基因来表征当前样本。注意当前阶段的新基因从蒸馏项中移除，因为旧模型不具备预测未见基因的能力
特征提取过程:
- 基因嵌入：\(\bm{e} = \mathbf{E}_\phi(\bm{x}) + \tilde{\bm{v}}\mathbf{L}_{1,\phi}\)
- Transformer 编码：\(\bm{e}' = \mathbf{M}_\phi(\bm{e})\)
- 值预测：\(\hat{\bm{v}} = \bm{e}'\mathbf{L}_{2,\phi}\)
- 基因嵌入层将 token ID映射到向量，同时线性层将表达值编码到嵌入空间，两者相加后送入 Transformer

评估方法¶

基因级回归评估：直接使用掩码预测损失 \(\mathcal{L}_{\text{regress},s_k} = \mathbb{E}[\sum_k \|v_{ik} - \hat{v}_{ik}^*\|^2]\)，评估特定阶段基因的预测准确率
基因级分类评估：为每阶段选择对特定下游分类任务至关重要的基因，通过下游分类准确率间接评估基因的学习和遗忘

实验关键数据¶

主实验¶

使用 scGPT 风格的 Transformer（6层,8头,隐藏维度256），在 906,890 训练样本上训练。

2阶段基因级回归（Norman-Lupus设定）：

方法	阶段	Norman	Lupus	Δ（遗忘）
Baseline	1	0.172	-	-
Baseline	2	0.424	0.134	0.253
Replay (1000)	2	0.215	0.134	0.043
Distill (λ=5)	2	0.365	0.139	0.193
Oracle	-	0.173	0.136	-

2阶段基因级分类（下游准确率%）：

方法	阶段	Norman	Lupus	Δ（遗忘）
Baseline	1	37.73	67.31	-
Baseline	2	35.59	75.39	-2.14
Replay	2	36.45	75.00	-1.29
Distill	2	34.16	72.94	-3.74
Oracle	-	38.11	75.42	-

消融实验¶

基因回放和基因蒸馏超参消融（Norman-Lupus 回归）：

方法	超参	Norman	Lupus	Δ
Replay	50 样本	0.293	0.136	0.121
Replay	100 样本	0.263	0.138	0.091
Replay	1000 样本	0.215	0.134	0.043
Replay	10000 样本	0.190	0.133	0.018
Distill	λ=0.5	0.420	0.134	0.248
Distill	λ=5.0	0.365	0.139	0.193
Distill	λ=10.0	0.326	0.143	0.154

关键发现¶

Baseline 在 2 阶段设定中回归 Δ 平均为 0.279、分类 Δ 平均为 -1.816%，验证了基因遗忘确实存在
基因回放随回放样本增加效果持续提升，最好 Δ 为 0.018（10000 样本，接近 Oracle）
基因蒸馏在回归评估上有效（Δ 从 0.253 降到 0.193），但在分类评估上反而更差（Δ 从 -1.816% 恶化到 -2.473%），说明蒸馏虽然平均防止了遗忘，但可能降级了基因特征的质量
3 阶段设定中遗忘现象持续存在且可累积
两种评估方式的一致性：回归和分类评估都随阶段增加而性能下降，但分类评估的下降不如 CIL 中那么显著

亮点与洞察¶

首次提出 token 维度增量学习的概念，巧妙利用转录组学数据无序性来规避语言数据的不可分性
基础基因机制是一个简洁但关键的设计，保证了每阶段样本的语义完整性
两种评估方式互补：回归直接测量遗忘程度，分类从下游任务角度验证基因记忆质量
基因蒸馏在回归好但分类差的发现很有趣，揭示了 token 遗忘的特殊性

局限与展望¶

发现的遗忘现象相比 CIL 较弱（分类下降仅 1-3%），这是因为单个基因对样本整体的影响有限
没有设计 GIL 专用的新方法，只是适配已有的 CIL 方法，缺乏创新性
可创建的设定数量有限——不同下游数据集的关键基因有大量重叠，难以构造大量不冲突的设定
阶段数量也受限（仅测试了 2-3 阶段），未验证更长序列的增量场景
基础基因的选择策略对框架影响可能很大，但未做详细分析
输入长度限制为 512 基因，基因是随机选择的，引入了评估的随机性

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐