跳转至

BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research

会议: NeurIPS 2025
arXiv: 2512.15931
代码: GitHub
领域: 生物信息学 / 基因组学
关键词: DNA条形码, 真菌分类, 状态空间模型, 基础模型, 层次分类

一句话总结

BarcodeMamba+ 是用于真菌 DNA 条形码分类的基础模型——基于状态空间模型架构,采用预训练+微调范式利用部分标注数据,结合层次标签平滑、加权损失和多头输出增强真菌分类(93%样本种级未标注),在所有分类层级上超越现有方法。

研究背景与动机

  1. 领域现状:DNA 条形码是自动化生物多样性监测的基础,但真菌分类极具挑战(93%样本缺乏种级标注,长尾分布严重)。
  2. 现有痛点:BLAST 等传统方法推理慢且泛化差;监督学习难以处理极度稀疏的标注。
  3. 切入角度:用 Mamba(高效状态空间模型)做预训练基础模型,利用未标注数据。
  4. 核心idea一句话:SSM 预训练 + 层次分类增强 = 数据稀疏环境下的真菌分类利器。

方法详解

关键设计

  1. Mamba 架构预训练:在大量未标注/部分标注 DNA 序列上自监督预训练
  2. 层次标签平滑:利用分类层次(门/纲/目/科/属/种)的结构信息
  3. 加权损失:应对长尾分布
  4. 多头输出:每个分类层级一个输出头

实验关键数据

在真菌分类 benchmark 上,所有分类层级超越 BLAST、RDP、传统监督方法。

亮点与洞察

  • 预训练+微调范式在数据稀疏的基因组领域特别有效
  • 可扩展到其他生物类群的 DNA 条形码分类

局限性 / 可改进方向

  • 仅在真菌 ITS 区域验证
  • 未与蛋白质语言模型(如 ESM)对比

评分

  • 新颖性: ⭐⭐⭐ Mamba用于DNA分类是合理但不突破性
  • 实验充分度: ⭐⭐⭐⭐ 全面的分类层级对比
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐⭐ 对生物多样性研究有实际工具价值