GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology¶

会议: ICCV 2025
arXiv: 2504.01009
代码: github.com/bmi-imaginelab/GECKO
领域: 医学图像 / 计算病理学
关键词: WSI预训练, 概念先验, 对比学习, 多实例学习, 可解释性

一句话总结¶

提出GECKO，一种无需额外临床数据模态的WSI级MIL聚合器预训练方法，通过从H&E WSI自动提取可解释的概念先验(Concept Prior)并与深度特征对比对齐，在5个分类任务上超越现有单模态和多模态预训练方法，同时提供病理学家可解释的WSI级描述。

研究背景与动机¶

病理学中的基础模型发展迅速，但由于WSI是千兆像素级的，现有工作大多聚焦于patch级别的表示学习。要获得WSI级的嵌入需要通过MIL聚合器，而训练MIL通常依赖监督信号。

现有WSI级预训练方法面临两个挑战：

需要额外模态：单模态预训练（仅用WSI数据）容易过拟合染色伪影。TANGLE需要配对的转录组学数据，MEDELEINE需要不同染色的切片——这些额外模态获取成本高、数据集规模小、难以标准化

缺乏可解释性：预训练产出的WSI嵌入本质是不可解释的黑盒，仅能提供patch注意力热力图显示显著区域，无法揭示驱动预测的关键病理学概念

核心问题：能否仅用WSI数据预训练一个有效的MIL聚合器，且提供病理学家可解释的WSI级嵌入？

方法详解¶

整体框架¶

GECKO预训练一个双分支MIL网络： - 深度编码分支：聚合patch深度特征为WSI级深度嵌入 \(F_{wsi}\) - 概念编码分支：聚合概念先验为WSI级概念嵌入 \(M_{wsi}\)（保持可解释性） - 使用对比学习目标对齐两个分支的WSI级输出

关键设计¶

概念先验提取(Concept Prior Extraction)：
- 利用LLM(GPT-4)为每个下游任务的每个类别生成视觉可区分的病理概念文本描述（每类10个最独特概念）
- 用预训练VLM(CONCH)的文本编码器将概念编码为 \(T \in \mathbb{R}^{C \times D}\)
- 用VLM的视觉编码器将WSI的N个patch编码为 \(F \in \mathbb{R}^{N \times D}\)
- 计算patch与概念间的余弦相似度矩阵 \(M \in \mathbb{R}^{N \times C}\)——这就是概念先验
- 每个元素量化了某个patch对特定概念的激活程度，天然可解释
- 此过程完全自动化，无需人工标注或额外临床检测
WSI级深度编码分支：基于ABMIL架构，patch特征经投影器 \(H(\cdot)\) 和注意力模块 \(A^p(\cdot)\) 加权聚合：

\[F_{wsi} = \sum_{i=1}^N \alpha_i \cdot \tilde{f}_i\]

其中 \(\alpha_i\) 是可学习的patch注意力权重。

WSI级概念编码分支：
- 用深度编码分支的注意力分数 \(\alpha_i\) 选择Top-K显著patch（可微的Perturbed Top-K操作）
- 截取对应的概念先验子矩阵 \(\tilde{M} \in \mathbb{R}^{K \times C}\)
- 通过MLP-Mixer上下文化空间和概念信息
- 门控注意力网络 \(G(\cdot)\) 计算概念注意力 \(\beta_j\)（sigmoid激活）
- 核心约束：概念先验仅经线性缩放 \(\hat{M}_{ij} = \beta_j \times \tilde{M}_{ij}\)，保持可解释性
- 平均池化得到WSI级概念嵌入 \(M_{wsi} = \frac{1}{K}\sum_{i=1}^K \hat{M}_i\)

损失函数 / 训练策略¶

对比学习损失：对称CLIP损失对齐 \(F_{wsi}\) 和 \(M_{wsi}\)：

\[\mathcal{L} = \frac{1}{2}(\mathcal{L}_{CL}(F_{wsi}, M_{wsi}) + \mathcal{L}_{CL}(M_{wsi}, F_{wsi}))\]

假阴性消除：keep ratio \(r_{keep}=0.7\)，排除高度相似的WSI对避免错误对比
预训练50 epochs，学习率1e-4，warmup 5 epochs + cosine衰减
Batch size=64，K=10（Top-K显著patch）
CONCH提取patch特征（448×448 @ 20×），每类选10个概念

推理模式： - 无监督预测：利用概念嵌入的可解释性，WSI被归类为概念激活最高的那个类：\(P(l) = \frac{\sum_{j \in I_l} M_{wsi,j}}{\sum_{k \in I} M_{wsi,k}}\) - 有监督预测：对 \(F_{wsi}\) 和/或 \(M_{wsi}\) 训练线性分类器

实验关键数据¶

主实验¶

无监督分类 (AUC, 零标签)：

方法	可解释	LUAD vs LUSC	EBV+MSI vs Others	MSI vs Others	HER2 (3类)
MI-Zero	部分	96.6	61.9	42.3	32.2
ConcepPath-Zero	✗	91.0	74.2	73.4	37.5
GECKO-Zero	✓	95.0	83.4	77.1	60.6

无需任何WSI级标签，GECKO-Zero在大多数任务上大幅超越现有无监督方法。

全监督分类 (AUC, 线性探测)：

方法	嵌入	LUAD vs LUSC	EBV+MSI vs Others	MSI vs Others
Intra (仅WSI)	deep	97.5	83.5	83.9
GECKO (仅WSI)	ensemble	97.6	86.4	86.5
TANGLE (WSI+Gene)	deep	97.9	85.4	86.6
GECKO (WSI+Gene)	ensemble	97.9	87.1	89.4

GECKO仅用WSI数据即与TANGLE(WSI+Gene)可比；加入Gene后进一步超越。

消融实验¶

与其他WSI编码方法对比 (Few-shot, k=10)：

方法	LUAD vs LUSC	EBV+MSI vs Others
PANTHER	91.2	78.5
Giga-SSL (H-Optimus)	92.8	77.5
GECKO (ensemble, WSI only)	96.4	82.1
TITAN (多模态)	97.5	78.7
GECKO (ensemble, WSI+Gene)	97.0	84.4

GECKO在EBV+MSI任务(k=10)上超TITAN 6.7%，尽管GECKO仅用~200 WSI预训练 vs TITAN的100K+配对样本。

概念识别准确度：

任务	j=1 (无监督)	j=1 (全监督)
LUAD vs LUSC	81.4%	99.9%
MSI vs Others	54.0%	83.3%

预训练模型能高精度识别WSI中驱动预测的病理概念。

关键发现¶

概念先验提供了任务特异性的判别信号，解决了单模态预训练的染色伪影过拟合问题
概念编码分支保持线性聚合确保了可解释性的数学保证
假阴性消除对低维(C=20/30)概念空间的对比学习至关重要
仅用WSI数据的GECKO已超越需要Gene数据的TANGLE（在多个任务上）
概念嵌入在无监督场景下直接可用于临床假设检验和生物标志物发现

亮点与洞察¶

首创性：首个无需额外临床模态的有效WSI级预训练方案，且提供可解释嵌入
自动化概念挖掘：LLM生成概念+VLM计算激活，全流程无需人工标注
双嵌入设计：深度嵌入保证判别力，概念嵌入保证可解释性，ensemble获得两者优势
无监督临床应用：GECKO-Zero模式下，病理学家可直接审查和修正概念级预测
模态灵活性：GECKO可无缝整合额外模态（Gene），不依赖但受益于它

局限与展望¶

概念集依赖任务先验（每个任务需定义概念），通用泛癌预训练需更大概念库
仅在TCGA数据集上评估，缺少外部独立验证集
概念先验的质量受VLM(CONCH)的病理领域对齐程度影响
Top-K=10的设定可能不适合所有WSI（有些WSI的关键区域可能分布更广）
未探索与更新的病理VLM（如CONCH v1.5后续版本）的结合效果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 概念先验驱动的WSI预训练首创，兼顾性能与可解释性
实验充分度: ⭐⭐⭐⭐ 5个任务、无监督+有监督+few-shot全面评测，与多种方法对比
写作质量: ⭐⭐⭐⭐ 方法图和概念说明清晰，但部分公式排版略密集
价值: ⭐⭐⭐⭐⭐ 临床实用价值高——可解释性是病理AI落地的关键瓶颈，GECKO直接解决