跳转至

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

会议: ICLR2026
arXiv: 2512.20833
代码: https://github.com/CaicedoLab/CHAMMI-75
领域: 自监督学习
关键词: microscopy, multi-channel imaging, dataset curation, self-supervised learning, cell morphology

一句话总结

构建 CHAMMI-75——最大的异构多通道显微镜图像预训练数据集(280 万图像,75 个来源,25 种通道类型,16 种物种),证明成像模态多样性是提升多通道模型泛化能力的关键因素,训练的 MorphEm 模型在 7 个 benchmark 中 6 个达到 SOTA。

研究背景与动机

  1. 领域现状:显微镜成像是生物实验研究的基础工具。与 RGB 自然图像不同,显微镜图像的通道数量可变(1-数十个),每个通道编码不同的荧光信号。深度学习广泛用于分析显微镜图像,但通常需要固定通道数的模型——不同实验用不同通道配置,模型无法跨实验复用。
  2. 现有痛点:(a) 通道固定——现有模型修改 RGB 架构为特定通道数,无法处理新的通道组合;(b) 数据碎片化——多通道显微镜图像散布在各种公开平台上,格式不一、元数据不一致,难以统一使用;(c) 规模不足——现有数据集如 IDRCell100k 仅 10 万图像。
  3. 核心矛盾:要训练通用的细胞形态学基础模型,需要覆盖多种成像模态、多种物种、多种通道组合的大规模数据——但这样的数据集不存在。
  4. 本文要解决什么? 构建首个大规模异构多通道显微镜图像数据集 + 系统评估其作为预训练资源的有效性。
  5. 切入角度:从 18 个公开数据托管平台采集 75 个生物学研究的图像,统一元数据标注,精心筛选去冗余,构建高质量预训练数据集。
  6. 核心idea一句话:数据多样性(尤其是成像模态多样性)是训练通道自适应细胞形态学模型的关键——CHAMMI-75 提供了这种多样性。

方法详解

整体框架

工作包含三部分:(1) CHAMMI-75 数据集构建——数据获取→元数据整合→数据筛选(去冗余+质量控制)→细胞分割标注;(2) 6 个评估 benchmark(包含 3 个新提出)覆盖不同通道配置和域迁移场景;(3) 系统实验评估数据集的预训练价值、影响因素和扩展性。

关键设计

  1. 数据筛选 pipeline:
  2. 做什么:从约 2600 万下载图像中筛选出 280 万高质量、低冗余的预训练图像
  3. 核心思路:分四步去冗余——(a) 3D 图像随机采样少量 2D 切片;(b) 活体显微延时视频随机采样少量帧;(c) 对照条件重复样本随机采样少量孔板;(d) K-means 聚类选择多样化、高质量子集
  4. 设计动机:显微镜数据有大量近似重复(如同一3D体的相邻切片、延时视频的连续帧),直接使用会导致严重过拟合。基于元数据的系统化筛选确保多样性

  5. Bag of Channels (BoC) vs Multi-Channel Attention (MCA):

  6. 做什么:评估两种多通道处理策略
  7. 核心思路:BoC 将每个通道独立输入 backbone 提取特征再拼接——通道无关、可扩展;MCA 将所有通道 token 组成长序列建模跨通道关联——信息更丰富但计算量 3-5×
  8. 设计动机:BoC 在 SSL 场景下始终优于 MCA(高达 19%),说明在无监督设定下学习跨通道关联很困难。BoC 更实用且更易扩展

  9. MorphEm 模型:

  10. 做什么:基于 CHAMMI-75 的最佳预训练模型
  11. 核心思路:ViT-small + DINO 自监督 + BoC 策略,在完整 CHAMMI-75(280 万图像)上训练。2352 GPU 小时
  12. 设计动机:系统扩展实验表明 DINO > MAE > SimCLR,BoC > MCA,ViT-small 在学术计算资源下可行且效果好

  13. 评估 benchmark 设计:

  14. 做什么:6 个 benchmark 覆盖不同泛化场景
  15. 核心思路:包含通道内任务(CHAMMI、HPAv23、JUMP-CP)、通道泛化任务(CellPHIE 14 通道——训练时未见的组合)、跨模态+跨域任务(RBC-MC 明场成像流式细胞术)
  16. 设计动机:真实世界中新实验经常用新的通道组合甚至新的成像方式。CellPHIE 和 RBC-MC 测试的就是这种最难的泛化

训练策略

DINO-BoC 自监督学习:单通道输入 ViT-small,student-teacher 框架。特征提取后冻结权重,不微调,直接在下游任务评估(线性探针或 nearest neighbor)。

实验关键数据

主实验(6 个 benchmark 对比)

模型 多通道 预训数据 CHAMMI ↑ HPAv23 ↑ JUMP-CP1 ↑ CellPHIE ↑ RBC-MC ↑
SubCell (WSL, ViT-B) 手动选 HPAv23 53.38 69.33 77.60 71.23 59.10
DINOv2 BoC LVD-142M 37.93 53.76 75.84 72.27 59.41
OpenPhenom MCA RxRx+JUMP 38.22 49.13 74.26 75.56 64.43
IDRCell100k BoC IDRCell 37.38 44.05 72.37 79.14 55.85
MorphEm BoC CHAMMI-75 48.75 58.87 76.32 80.51 68.34

消融实验(数据因素影响 - 相对性能差异)

因素 使用该因素 不使用该因素 影响程度
异构 vs 专用数据 +38% -27% 最大
多成像模态 vs 仅荧光 +15% -13% 次大
不同放大倍率 +3% -3% 中等
不同细胞系 +1% -1% 较小
不同通道数 +1% -1% 较小

关键发现

  • 数据异构性 >> 数据量:仅 10 万异构图像(IDRCell100k)vs 280 万异构图像(CHAMMI-75),后者大幅领先。而同为 10 万级的专用数据完全无法匹敌异构数据
  • 成像模态多样性是关键:仅用少数非主流成像模态(12 种)训练的模型比仅用两种主流模态训练的好 28%。这说明模型通过学习不同物理成像过程的变化来获得更鲁棒的表征
  • SSL 下 BoC >> MCA:BoC 一致性地优于 MCA 19%,且计算量低 3-5×。无监督设定下学习跨通道关联很难
  • 小模型+好数据可超大模型:ViT-small MorphEm(SSL)在 CellPHIE 上超 SubCell(WSL, ViT-base)13%,在 RBC-MC 上超 15%——数据质量和多样性比模型大小更重要
  • DINO > MAE > SimCLR:在显微镜图像 SSL 中 DINO 一致性最佳,可能因为其 teacher-student 框架更适合捕捉生物形态学的全局特征

亮点与洞察

  • 数据筛选方法论的价值:从 2600 万→280 万的筛选过程本身就是贡献——系统化的去冗余和多样性保持策略可以作为模板应用于其他领域的大规模数据集构建
  • 成像模态多样性的洞察:不是简单的"越多数据越好",而是"越多类型的成像方式越好"。这对基础模型的数据策略有直接指导意义——应优先收集不同物理成像过程的数据
  • 通道泛化到 14 通道:训练时最多见 7 通道,但能零样本泛化到 14 通道的 CellPHIE。BoC 的通道独立处理使这种泛化自然成立——这与自然图像领域的 patch 独立处理(ViT)异曲同工

局限性 / 可改进方向

  • 计算资源限制:受限于学术机构计算资源,仅测试了 ViT-small。论文自己的 scaling 实验表明 ViT-large 还能提升 10%——更大规模训练有空间
  • BoC 丢失跨通道信息:BoC 策略虽然实用,但忽略了通道间的生物学共定位信息(如 DAPI + phalloidin 的空间关系)。未来需要找到在 SSL 下也能有效利用跨通道信息的方法
  • 元数据噪声:尽管做了大量标注工作,元数据仍有噪声,影响弱监督学习的效果
  • 长尾分布未解决:通道组合的分布极其长尾(Figure 4b)——某些通道只在少数研究中出现,模型对这些稀有通道的表征质量未知

相关工作与启发

  • vs IDRCell100k:相同数量的源(79 vs 75)但 CHAMMI-75 图像量 30×、筛选质量更高。同一 BoC 模型在 IDRCell100k 上训练全面落后于 CHAMMI-75,证明数据质量+规模的价值
  • vs SubCell:SubCell 用弱监督+大模型+手工选通道组合在部分任务上最强。但在泛化场景(新通道、新域)上,CHAMMI-75 的 SSL 小模型大幅领先——说明多样性训练数据是泛化的根基
  • 类比 ImageNet/LAION:正如 ImageNet 推动了自然图像的历史性进步,CHAMMI-75 有潜力成为显微镜成像领域的"ImageNet"——系统性的数据工程推动模型突破

评分

  • 新颖性: ⭐⭐⭐⭐ 数据集构建和多因素消融分析深入,但方法上主要用已有技术(DINO+BoC)
  • 实验充分度: ⭐⭐⭐⭐⭐ 7 个 benchmark、6 因素消融、3 维度 scaling、BoC vs MCA 对比极其全面
  • 写作质量: ⭐⭐⭐⭐⭐ 数据集的动机、构建过程、实验设计都叙述清晰,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 对生物成像基础模型领域有开创性贡献,数据+代码+模型全部开源