跳转至

Large Language Models in Bioinformatics: A Survey

会议: ACL 2025
arXiv: 2503.04490
代码: 无
领域: LLM/NLP
关键词: bioinformatics, survey, protein, genomics, drug discovery, single-cell

一句话总结

系统综述 LLM 在生物信息学中的应用,覆盖基因组序列建模、RNA 结构预测、蛋白质功能推断、单细胞转录组学四大方向,讨论数据稀缺、计算复杂度、跨组学整合等挑战。

研究背景与动机

  1. 领域现状:LLM 正在革命性地改变生物信息学,从 DNA/RNA/蛋白质序列建模到单细胞分析均有突破。
  2. 现有痛点:现有综述往往局限于单一子领域,缺乏跨基因组/蛋白质/单细胞的统一视角。
  3. 核心矛盾:生物序列数据的特殊性(序列长、多层级结构、跨模态关联)与标准 NLP LLM 的设计假设不匹配。
  4. 本文要解决什么? 提供跨子领域的统一综述和未来方向。
  5. 切入角度:按“序列类型”(DNA/RNA/蛋白质/单细胞)组织,贯穿讨论多模态学习和临床应用。
  6. 核心idea一句话:LLM 在生物信息学的四大方向都展现了变革性潜力,但仍面临数据、计算和整合的关键挑战。

方法详解

整体框架

综述按四大方向组织:(1) 基因组序列建模 (2) RNA 结构预测 (3) 蛋白质功能推断 (4) 单细胞转录组学,并讨论跨领域挑战和未来方向。

关键设计

  1. 基因组序列建模
  2. 代表模型:DNABERT, DNABERT-2, Nucleotide Transformer, Evo
  3. 任务:变异体效应预测、表观组学标记、基因组注释
  4. 挑战:序列极长(数十万 bp),需要长序列建模能力

  5. RNA 结构预测

  6. 代表模型:RNA-FM, RiNALMo
  7. 挑战:二级结构与功能的联系、数据稀缺

  8. 蛋白质功能推断

  9. 代表模型:ESM-2, AlphaFold3, ProtTrans
  10. 进展:从序列到结构的端到端预测
  11. 挑战:多尺度结构表示、蛋白质设计

  12. 单细胞转录组学

  13. 代表模型:scGPT, Geneformer, scBERT
  14. 进展:细胞类型注释、基因调控网络推断
  15. 挑战:batch effect、跨组织泛化

实验关键数据

各方向代表模型汇总

方向 代表模型 参数量 关键成果
基因组 DNABERT-2 117M 多物种基因组理解
基因组 Evo 7B 最长 131K bp 建模
RNA RNA-FM 100M+ RNA 二级结构预测
蛋白质 ESM-2 15B 蛋白质结构和功能
单细胞 scGPT 100M+ 细胞类型注释 SOTA

未来方向

方向 描述
多模态学习 整合序列+结构+功能
混合 AI LLM + 物理模拟
临床应用 精准医学整合
跨组学 基因组+转录组+蛋白组联合

关键发现

  • LLM 在生物信息学四大方向都取得了突破性进展
  • 序列长度和多尺度性是共同挑战
  • 跨组学整合是最具前景的未来方向
  • 临床转化仍面临数据隐私和解释性挑战

亮点与洞察

  • 跨子领域的统一视角罕见且有价值
  • “生物序列即语言”的观点为 LLM 应用提供了理论基础
  • 对每个子领域的挑战分析具体且有指导性

局限性 / 可改进方向

  • 综述截止日期的 limitation,可能遗漏最新进展
  • 未深入讨论安全和伦理问题(如基因编辑)
  • 缺少定量对比实验

相关工作与启发

  • 与其他生物 LLM 综述互补,本文覆盖面更广

评分

  • 新颖性: ⭐⭐⭐ 综述贡献在于统一视角
  • 实验充分度: ⭐⭐ 纯综述无实验
  • 写作质量: ⭐⭐⭐⭐ 结构清晰覆盖全面
  • 价值: ⭐⭐⭐⭐ 对生物信息学+NLP 交叉研究者有参考价值