Large Language Models in Bioinformatics: A Survey¶
会议: ACL 2025
arXiv: 2503.04490
代码: 无
领域: LLM/NLP
关键词: bioinformatics, survey, protein, genomics, drug discovery, single-cell
一句话总结¶
系统综述 LLM 在生物信息学中的应用,覆盖基因组序列建模、RNA 结构预测、蛋白质功能推断、单细胞转录组学四大方向,讨论数据稀缺、计算复杂度、跨组学整合等挑战。
研究背景与动机¶
- 领域现状:LLM 正在革命性地改变生物信息学,从 DNA/RNA/蛋白质序列建模到单细胞分析均有突破。
- 现有痛点:现有综述往往局限于单一子领域,缺乏跨基因组/蛋白质/单细胞的统一视角。
- 核心矛盾:生物序列数据的特殊性(序列长、多层级结构、跨模态关联)与标准 NLP LLM 的设计假设不匹配。
- 本文要解决什么? 提供跨子领域的统一综述和未来方向。
- 切入角度:按“序列类型”(DNA/RNA/蛋白质/单细胞)组织,贯穿讨论多模态学习和临床应用。
- 核心idea一句话:LLM 在生物信息学的四大方向都展现了变革性潜力,但仍面临数据、计算和整合的关键挑战。
方法详解¶
整体框架¶
综述按四大方向组织:(1) 基因组序列建模 (2) RNA 结构预测 (3) 蛋白质功能推断 (4) 单细胞转录组学,并讨论跨领域挑战和未来方向。
关键设计¶
- 基因组序列建模
- 代表模型:DNABERT, DNABERT-2, Nucleotide Transformer, Evo
- 任务:变异体效应预测、表观组学标记、基因组注释
-
挑战:序列极长(数十万 bp),需要长序列建模能力
-
RNA 结构预测
- 代表模型:RNA-FM, RiNALMo
-
挑战:二级结构与功能的联系、数据稀缺
-
蛋白质功能推断
- 代表模型:ESM-2, AlphaFold3, ProtTrans
- 进展:从序列到结构的端到端预测
-
挑战:多尺度结构表示、蛋白质设计
-
单细胞转录组学
- 代表模型:scGPT, Geneformer, scBERT
- 进展:细胞类型注释、基因调控网络推断
- 挑战:batch effect、跨组织泛化
实验关键数据¶
各方向代表模型汇总¶
| 方向 | 代表模型 | 参数量 | 关键成果 |
|---|---|---|---|
| 基因组 | DNABERT-2 | 117M | 多物种基因组理解 |
| 基因组 | Evo | 7B | 最长 131K bp 建模 |
| RNA | RNA-FM | 100M+ | RNA 二级结构预测 |
| 蛋白质 | ESM-2 | 15B | 蛋白质结构和功能 |
| 单细胞 | scGPT | 100M+ | 细胞类型注释 SOTA |
未来方向¶
| 方向 | 描述 |
|---|---|
| 多模态学习 | 整合序列+结构+功能 |
| 混合 AI | LLM + 物理模拟 |
| 临床应用 | 精准医学整合 |
| 跨组学 | 基因组+转录组+蛋白组联合 |
关键发现¶
- LLM 在生物信息学四大方向都取得了突破性进展
- 序列长度和多尺度性是共同挑战
- 跨组学整合是最具前景的未来方向
- 临床转化仍面临数据隐私和解释性挑战
亮点与洞察¶
- 跨子领域的统一视角罕见且有价值
- “生物序列即语言”的观点为 LLM 应用提供了理论基础
- 对每个子领域的挑战分析具体且有指导性
局限性 / 可改进方向¶
- 综述截止日期的 limitation,可能遗漏最新进展
- 未深入讨论安全和伦理问题(如基因编辑)
- 缺少定量对比实验
相关工作与启发¶
- 与其他生物 LLM 综述互补,本文覆盖面更广
评分¶
- 新颖性: ⭐⭐⭐ 综述贡献在于统一视角
- 实验充分度: ⭐⭐ 纯综述无实验
- 写作质量: ⭐⭐⭐⭐ 结构清晰覆盖全面
- 价值: ⭐⭐⭐⭐ 对生物信息学+NLP 交叉研究者有参考价值