DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models¶

会议: ICML 2025
arXiv: 2506.13817
代码: 有
领域: 医学影像/生物信息学
关键词: 单细胞RNA测序, 大语言模型, 细胞类型标注, 智能体 AI, 基础模型

一句话总结¶

提出 DeepSeq 流水线，利用大语言模型（尤其是具备实时网络搜索能力的 Agentic GPT-4o）对单细胞RNA测序数据进行自动化细胞类型标注，最高准确率达 82.5%，解决了大规模组学数据标注的吞吐量瓶颈。

研究背景与动机¶

单细胞RNA测序的规模化挑战¶

单细胞RNA测序（scRNA-seq）已彻底改变了我们在细胞分辨率水平理解生物系统的能力。与传统的 bulk 测序不同，scRNA-seq 保留了细胞多样性，支持谱系追踪、扰动推断和细胞类型识别等下游分析。

然而，随着条形码技术和实验方案的改进，scRNA-seq 数据集已从数千个细胞增长到每次实验数百万个细胞。根据 Svensson et al. (2018) 的统计，自 2009 年以来单细胞测序数量呈指数增长，预计到 2030 年单个研究将超过 \(10^9\) 个细胞。

标注瓶颈¶

当前的核心瓶颈在于细胞类型标注：

手动标注速度远跟不上数据增长
随着聚类数量随数据量增加，人工标注复杂度急剧上升
监督学习、伪时间排序、扰动建模等下游任务都依赖于准确的细胞类型标签
人工标注不可避免地引入人为误差

现有方法的不足¶

传统的自动标注方法（如参考图谱映射）受限于参考数据的覆盖范围和跨组织泛化能力。最近 Hou & Ji (2024) 在 Nature Methods 上展示了 GPT-4 在单细胞标注中的初步能力，但缺乏系统性的流水线设计和多模型对比。

本文动机¶

作者提出：能否构建一个模块化的、可扩展的 LLM 标注系统，同时支持本地轻量推理和在线 Agentic 推理，以解决高通量标注需求？

方法详解¶

整体框架¶

DeepSeq 是一个端到端的模块化流水线，整体流程为：

\[\text{原始数据} \xrightarrow{\text{过滤}} \text{清洗后数据} \xrightarrow{\text{降维+聚类}} \text{细胞簇} \xrightarrow{\text{提取标志基因}} \text{结构化提示} \xrightarrow{\text{LLM推理}} \text{细胞类型标签}\]

系统支持两种推理路径： 1. 本地推理：通过 Ollama 客户端部署轻量级模型（如 LLaMA3）进行设备端推理 2. Agentic 推理：通过 GPT-4o + Web Search 进行在线推理，Agent 可自主检索和总结外部生物学知识

关键设计¶

1. 数据预处理与过滤模块：去除低质量细胞和基因→三种互补的过滤策略→确保输入数据质量¶

原始数据被处理为基因×细胞矩阵，转换为 AnnData 格式。过滤采用三种策略：

标准阈值过滤：每个细胞至少表达 \(\geq 200\) 个基因
自动拐点检测：使用 KneeLocator 算法自动确定过滤阈值
平滑拐点过滤：基于平滑后的分布曲线检测拐点

三种策略可以生成质控诊断图，供用户选择最合适的过滤方案。

2. 聚类与标志基因提取模块：将细胞分群并提取每群的特征基因→Leiden 算法聚类 + Scanpy 基因排序→为 LLM 提供结构化输入¶

具体步骤： - 使用 PCA 进行降维 - 基于邻域图，使用 Leiden 算法聚类 - UMAP 嵌入到 2D 空间进行可视化 - 对每个聚类 \(C_i\)，使用 Scanpy 的排序函数提取 top 标志基因 \(G_i = \text{rank\_genes}(C_i)\)

3. LLM 标注模块：基于标志基因生成细胞类型预测→结构化提示 + 双推理路径→平衡效率与准确性¶

核心算法流程：

对于每个聚类 \(C_i\)： 1. 提取 top 标志基因 \(G_i\) 2. 构造结构化提示 \(P_i = \text{format}(G_i)\) 3. 根据推理模式： - Ollama 路径：\(\hat{y}_i = \text{local\_LLM}(P_i)\) - GPT-4o 路径：先执行网络搜索获取上下文，再 \(\hat{y}_i = \text{gpt4o}(P_i, \text{web results})\)

提示工程参考了 Hou & Ji (2024) 的格式设计，并适配到结构化转录组数据。LangChain 负责编排提示和后处理。

4. 评估模块：量化标注准确性→两阶段验证协议→确保可重复性¶

阶段一：标志基因验证 — 确认每个聚类的 top 标志基因与已知的典型标志基因充分匹配，确保评估在生物学上有意义
阶段二：标签准确性评估 — 将 LLM 生成的标签与人工标注的 ground truth 进行比较，使用模糊字符串匹配和同义词解析来鲁棒地评估聚类级别的一致性

损失函数 / 训练策略¶

本文方法不涉及模型训练，是一个推理时（inference-time）流水线。不需要损失函数或反向传播，LLM 模型直接作为"零样本"标注器使用。系统的核心在于：

提示工程：精心设计的结构化提示，将标志基因信息转换为 LLM 可理解的格式
Agentic 增强：通过实时网络搜索引入外部生物学知识，增强 LLM 在特定领域的推理能力
后处理：模糊匹配和同义词解析来处理标签格式不一致的问题

实验关键数据¶

主实验¶

实验在标准的 scRNA-seq 数据集上进行，使用 top 标志基因作为提示输入，比较不同 LLM 的标注准确率。

模型	参数量	推理方式	标注准确率	特点
LLaMA3-2-1B	~1B	本地 (Ollama)	较低	轻量级，可离线部署
GPT-3.5-turbo	~175B	Agentic (Web Search)	中等	有网络搜索能力
GPT-4o	~1.8T	Agentic (Web Search)	82.5%	最高准确率

关键观察： - GPT-4o 实现了 82.5% 的最高准确率 - 从 LLaMA3-2-1B 到 GPT-3.5 的提升幅度 > 从 GPT-3.5 到 GPT-4o 的提升幅度 - 这表明 Agentic 能力（网络搜索）提供了基线提升，但架构优化和参数扩展的收益递减

消融实验¶

配置	关键指标	说明
无 Web Search (LLaMA3-1B)	明显低于有搜索的模型	网络搜索是关键增益来源
有 Web Search (GPT-3.5)	比无搜索大幅提升	Agentic 能力提供基线增益
有 Web Search + 更大模型 (GPT-4o)	82.5%	参数量翻倍但提升有限
三种过滤策略	各有优劣	提供多种质控选项

关键发现¶

Agentic 能力 > 模型规模：网络搜索带来的增益大于单纯增加参数量的增益。在没有领域特定数据的情况下，模型规模扩展的收益递减。
Scaling Law 延伸到生物数据：类似于语言模型中数据量与性能的正相关关系，细胞类型标注的准确性也依赖于实验数据的规模和多样性。
轻量模型具有竞争力：LLaMA3-1B 在考虑到其体积的情况下表现不俗，证实了在受限环境中轻量级部署的可行性。
标志基因质量是瓶颈：提示的信息量取决于每个聚类中标志基因的区分性，在生物学上模糊的情况下模型仍表现脆弱。

亮点与洞察¶

系统设计理念出色：将 LLM 与单细胞分析完整集成，形成端到端可复现的流水线，而非简单的"把基因列表丢给 ChatGPT"的概念验证。
双路径推理架构：同时支持离线本地推理和在线 Agentic 推理，适应不同的部署场景（隐私敏感环境 vs 追求最高准确率）。
将 Scaling Law 类比到生物标注：提出随着单细胞数据集规模增长到 \(10^9\) 量级，LLM 标注可能超越人类水平的洞察。
实用性强：代码开源，流水线每一步都输出可解释的日志，支持不同 LLM 配置和评估策略的扩展。
Web Search 作为知识增强的有效性被量化验证 — 这为 Agentic AI 在科学领域的应用提供了数据支持。

局限与展望¶

数据集单一：仅在一个 scRNA-seq 数据集上验证，缺乏跨组织、跨物种的泛化性测试。82.5% 的准确率在不同数据集上是否稳定需要更多实验。
评估粒度有限：仅评估聚类级别的标签准确率，缺少细胞级别的准确率分析和混淆矩阵。
缺乏与专用工具的对比：未与 CellTypist、scType、SingleR 等专门的细胞注释工具进行对比，难以判断 LLM 方法是否真的优于现有专业工具。
成本分析缺失：GPT-4o 的 API 调用成本在大规模数据集上可能很高，论文未讨论经济可行性。
提示敏感性未探究：不同的提示格式、标志基因数量选择对结果的影响未做系统探究。
82.5% 准确率的实际意义：在需要高精度的临床和研究场景中，17.5% 的错误率可能仍然太高，论文对此讨论不足。
未考虑多模态整合的实验：虽然讨论了与 scATAC-seq 和空间转录组学的潜在整合，但缺乏实际实验。

评分¶

新颖性: ⭐⭐⭐ 方法本身是已有技术的工程化组合（LLM + Scanpy + LangChain），核心创新在系统设计而非算法
实验充分度: ⭐⭐ 单数据集验证，缺乏与专用工具对比，消融实验有限
写作质量: ⭐⭐⭐⭐ 结构清晰，系统架构描述详细，图表丰富
价值: ⭐⭐⭐ 展示了 LLM 在生物数据标注中的可行性，但实际影响力受限于准确率上限和缺乏广泛验证