跳转至

📚 AI Paper Notes

Large Language Models in Bioinformatics: A Survey

Large Language Models in Bioinformatics: A Survey¶

会议: ACL 2025
arXiv: 2503.04490
代码: 无
领域: LLM/NLP
关键词: bioinformatics, survey, protein, genomics, drug discovery, single-cell

一句话总结¶

系统综述 LLM 在生物信息学中的应用，覆盖基因组序列建模、RNA 结构预测、蛋白质功能推断、单细胞转录组学四大方向，讨论数据稀缺、计算复杂度、跨组学整合等挑战。

研究背景与动机¶

领域现状：LLM 正在革命性地改变生物信息学，从 DNA/RNA/蛋白质序列建模到单细胞分析均有突破。
现有痛点：现有综述往往局限于单一子领域，缺乏跨基因组/蛋白质/单细胞的统一视角。
核心矛盾：生物序列数据的特殊性（序列长、多层级结构、跨模态关联）与标准 NLP LLM 的设计假设不匹配。
本文要解决什么？ 提供跨子领域的统一综述和未来方向。
切入角度：按“序列类型”（DNA/RNA/蛋白质/单细胞）组织，贯穿讨论多模态学习和临床应用。
核心idea一句话：LLM 在生物信息学的四大方向都展现了变革性潜力，但仍面临数据、计算和整合的关键挑战。

方法详解¶

整体框架¶

综述按四大方向组织：(1) 基因组序列建模 (2) RNA 结构预测 (3) 蛋白质功能推断 (4) 单细胞转录组学，并讨论跨领域挑战和未来方向。

关键设计¶

基因组序列建模
代表模型：DNABERT, DNABERT-2, Nucleotide Transformer, Evo
任务：变异体效应预测、表观组学标记、基因组注释
挑战：序列极长（数十万 bp），需要长序列建模能力
RNA 结构预测
代表模型：RNA-FM, RiNALMo
挑战：二级结构与功能的联系、数据稀缺
蛋白质功能推断
代表模型：ESM-2, AlphaFold3, ProtTrans
进展：从序列到结构的端到端预测
挑战：多尺度结构表示、蛋白质设计
单细胞转录组学
代表模型：scGPT, Geneformer, scBERT
进展：细胞类型注释、基因调控网络推断
挑战：batch effect、跨组织泛化

实验关键数据¶

各方向代表模型汇总¶

方向	代表模型	参数量	关键成果
基因组	DNABERT-2	117M	多物种基因组理解
基因组	Evo	7B	最长 131K bp 建模
RNA	RNA-FM	100M+	RNA 二级结构预测
蛋白质	ESM-2	15B	蛋白质结构和功能
单细胞	scGPT	100M+	细胞类型注释 SOTA

未来方向¶

方向	描述
多模态学习	整合序列+结构+功能
混合 AI	LLM + 物理模拟
临床应用	精准医学整合
跨组学	基因组+转录组+蛋白组联合

关键发现¶

LLM 在生物信息学四大方向都取得了突破性进展
序列长度和多尺度性是共同挑战
跨组学整合是最具前景的未来方向
临床转化仍面临数据隐私和解释性挑战

亮点与洞察¶

跨子领域的统一视角罕见且有价值
“生物序列即语言”的观点为 LLM 应用提供了理论基础
对每个子领域的挑战分析具体且有指导性

局限性 / 可改进方向¶

综述截止日期的 limitation，可能遗漏最新进展
未深入讨论安全和伦理问题（如基因编辑）
缺少定量对比实验

相关工作与启发¶

与其他生物 LLM 综述互补，本文覆盖面更广

评分¶

新颖性: ⭐⭐⭐ 综述贡献在于统一视角
实验充分度: ⭐⭐ 纯综述无实验
写作质量: ⭐⭐⭐⭐ 结构清晰覆盖全面
价值: ⭐⭐⭐⭐ 对生物信息学+NLP 交叉研究者有参考价值