A Survey on Foundation Language Models for Single-cell Biology¶

会议: ACL 2025 (Long Paper)
arXiv: 无
代码: 无
领域: 计算生物学 / NLP交叉
关键词: single-cell biology, foundation language model, pre-trained language model, large language model, gene expression

一句话总结¶

首篇从语言建模视角系统综述单细胞生物学基础语言模型的工作，将现有模型划分为 PLM（从头预训练）和 LLM（利用已有大模型）两大类，全面分析了数据 tokenization 策略、预训练/微调范式以及下游任务。

背景与动机¶

语言模型（BERT、GPT 等）的成功已经渗透到计算生物学领域。研究者发现可以将细胞（cell）类比为"句子"，将基因（gene）类比为"词/token"，从而利用语言模型来构建统一的单细胞基础模型。这类模型能够获得跨数据集、跨任务的通用细胞表示，在细胞类型注释、基因扰动预测、药物响应等下游任务上超越传统专用模型。然而，此前的综述大多从 Transformer 角度出发，缺乏从语言建模视角的系统分析。本文填补了这一空白。

核心问题¶

如何系统地理解和分类当前为单细胞生物学构建的基础语言模型？这些模型在数据表示（tokenization）、预训练策略、以及下游任务适配方面各自如何设计？当前面临的核心挑战是什么，未来方向在哪里？

方法详解¶

整体框架¶

论文将单细胞基础语言模型分为两大阵营：

Single-cell PLMs（预训练语言模型）：将基因视为 token、细胞视为句子，从头在大规模单细胞数据上预训练（如 scBERT、scGPT、GeneFormer、scFoundation 等）。流程为：数据收集 → tokenization → 预训练 → 下游任务微调/零样本推理。
Single-cell LLMs（大语言模型）：不从头预训练，而是利用已有的通用 LLM（如 GPT-2/3.5/4、LLaMA、T5），通过将细胞数据转换为文本格式后进行微调或直接推理。流程为：数据收集 → 细胞转文本 → 微调/零样本 → 下游任务。

关键设计¶

1. Tokenization 策略（PLM 端）¶

将细胞的基因表达矩阵 (N×G) 转化为语言模型可理解的格式，主要有三种方式： - 离散 token：binning（scBERT, CellLM）将连续基因表达值离散化为整数；rank value encoding（GeneFormer 家族）按基因表达排序后用基因词表编码 - 连续嵌入：利用蛋白质语言模型获取基因嵌入（UCE, scPRINT）；可学习层映射（CellPLM）；分层贝叶斯下采样（scFoundation）等 - 辅助信息：融入元数据（细胞状态、器官来源、供体信息、测序技术等）或利用蛋白质基础模型的先验知识

2. 预训练范式（PLM 端）¶

掩码语言建模（MLM）：最主流，随机掩码 15%-30% 基因后重建（scBERT, UCE, GeneFormer, CellPLM, scFoundation, Nicheformer）
下一个 token 预测（NTP）：自回归预训练，仅 tGPT 和 scGPT 采用。论文指出 NTP 在单细胞领域不流行，因为（1）数据规模相比文本仍不够大，（2）细胞数据稀疏导致大量 ground truth 为零，模型倾向学到平凡解
多任务预训练：在 MLM 基础上叠加对比学习、分类、细胞生成、元数据预测、去噪等监督任务（CellLM, LangCell, scCello, scPRINT, scMulan, GeneCompass, CellFM）

3. 细胞-文本转换与微调范式（LLM 端）¶

转换方式： - Cell-to-Sentence：按表达量排序选 top-100 基因名拼成文本句子（Cell2Sentence, CHATCELL, CELLama） - Text-level Gene Embeddings：用 LLM 获取每个基因的功能描述嵌入，再用表达值加权组合（GenePT, scELMo, scInterpreter）

微调范式： - 指令微调：将任务转为 QA 格式（Cell2Sentence, CHATCELL），局限在于很多任务难以自然地转化为 QA - 嵌入微调：直接利用细胞/基因嵌入进行监督微调，是目前主流 - 免调优：LLM 作为 agent 直接生成 Python 代码执行分析（scChat）

下游任务体系¶

细胞级：细胞类型注释（最基础）、新细胞类型发现、批次效应校正、细胞聚类、多组学整合、细胞生成
基因级：基因网络分析、基因扰动预测、基因功能/表达预测
药物相关：药物敏感性预测、药物响应预测
空间相关：空间转录组补全、空间标签预测、空间组成分析

实验关键数据¶

本文为综述论文，不包含原创实验。但提供了详细的模型对比表：

模型	Tokenization	预训练范式	预训练数据规模
scBERT	Binning	MLM	1M cells
GeneFormer	Rank Value Encoding	MLM	27.4M cells
scFoundation	Downsampling	MLM	50M cells
scGPT	Binning+Metadata	NTP	33M cells
GeneCompass	Ranking+Metadata	Multi-task	126M cells
CellFM	Padding+MLP	Multi-task	100M cells
Nicheformer	Ranking+Metadata	MLM	57M cells

LLM 端模型基于 GPT-2/3.5、T5、LLaMA-13B、all-MiniLM-L12-v2 等。

消融实验要点¶

综述无消融实验，但总结了各模型的核心区别：MLM 优于 NTP 在单细胞领域（数据量和稀疏性限制）；多任务预训练整合了自监督和监督信号效果更好；仅 scGPT 和 scELMo 验证了多组学整合能力。

亮点¶

清晰的分类体系：PLM vs LLM 两大类，配合精细的子分类（tokenization 三策略、预训练三范式、LLM 三种微调模式），使读者快速建立全景视图
语言建模新视角：首次完全从 NLP 的语言建模角度审视单细胞基础模型，而非传统的生物信息学视角
Cell = Sentence 的类比：将基因视为 token、细胞视为句子的统一框架简洁优雅，是跨领域迁移的典范
系统的挑战分析：从数据质量（稀疏性、位置信息、批次效应、多组学缺乏）、模型设计（统一 tokenizer、scaling law 未现）、评测协议（缺乏统一基准、可用性差）三方面指出问题

局限性 / 可改进方向¶

技术深度有限：综述主要停留在"是什么"层面，对各模型的具体实验效果缺乏横向量化对比（因为现有模型大多在私有数据集上评测，难以公平对比）
生物动机分析不足：作者自己承认，论文侧重技术分析，对设计背后的生物学意义讨论不够深入
时效性：后续已有大量新模型涌现（如 CellVerse 等），但截止投稿时未覆盖
评估空白：缺乏统一 benchmark 是整个领域的痛点，论文指出但未提出具体解决方案
Scaling law 分析缺失：现有最大单细胞 PLM 不到 1B 参数，scaling 行为尚不明确

与相关工作的对比¶

vs Lan et al. (2024), Szałata et al. (2024)：这些综述从 Transformer 架构角度分析单细胞模型，本文首次从"语言建模"视角（PLM vs LLM 二分法）进行分析，更贴近 NLP 社区的思维方式
vs LLM4Cell (Dip et al., 2025)：后者覆盖了 agentic models，时间更晚，补充了 agent 范式的讨论

启发与关联¶

这篇综述揭示了一个重要趋势：NLP 领域的"预训练-微调"范式正在被系统性地迁移到生物数据领域，其中 tokenization 是最关键的桥梁
Cell-to-Sentence 的思路可以推广到其他非文本模态数据（如时间序列、传感器数据）的 LLM 适配
统一 benchmark 的缺失是普遍问题，在 medical AI、科学计算等交叉领域同样存在

评分¶

新颖性: ⭐⭐⭐ 综述本身无新方法，但首次从语言建模视角切入是一个新角度
实验充分度: ⭐⭐⭐ 综述无原创实验，模型总结表格较为完整但缺乏量化对比
写作质量: ⭐⭐⭐⭐ 结构清晰、分类体系完整、配图直观，适合快速入门该领域
对我的价值: ⭐⭐⭐ 对了解 NLP 与计算生物学交叉领域有参考价值，但与主要研究方向关联不大