Unsupervised Foundation Model-Agnostic Slide-Level Representation Learning¶

会议: CVPR 2025
arXiv: 2411.13623
代码: github
领域: Medical Imaging / Computational Pathology
关键词: 全切片图像表征学习, 自监督学习, 对比学习, 基础模型无关, Mamba-2

一句话总结¶

提出 Cobra，一种无监督的基础模型无关 (FM-agnostic) 全切片图像 (WSI) 级别表征学习框架：将来自多个预训练 patch 级基础模型的嵌入作为特征空间增广，通过 Mamba-2 编码器和对比学习训练 slide 编码器，仅用 3048 张 WSI 预训练即在 15 个下游任务上平均 AUC 超过现有 slide 编码器至少 +4.4%。

研究背景与动机¶

计算病理学中，全切片图像 (WSI) 可达 \(150,000 \times 150,000\) 像素，无法直接用 ViT 处理。主流方法是将 WSI 切割为小 patch，用预训练基础模型 (FM) 提取 patch 嵌入，然后通过 MIL 聚合为 slide 级别预测。但 MIL 是有监督的、任务特定的。

无监督 slide 表征学习试图生成任务无关的 slide 嵌入，但面临核心挑战：如何为 slide 级别学习生成有效的数据增广？ 传统图像增广对现代 FM 几乎无效（FM 已对这些变换不变），多染色/多模态方法受数据可用性限制。

Cobra 的核心洞察：不同的patch级FM本身就构成了特征空间增广——同一slide经不同FM编码产生不同但语义一致的patch嵌入序列，再结合不同放大倍率的嵌入，可直接在特征空间进行对比学习，无需任何像素级增广。

方法详解¶

整体框架¶

Cobra 在预处理阶段用 4 个预训练 FM（CTransPath、UNI、Virchow2、H-Optimus-0）在 3 个放大倍率（0.5、1.14、2 MPP）下提取 patch 嵌入。slide 编码器由三部分组成：(1) Embedding MLP 将不同维度的 FM 嵌入映射到共享空间；(2) 两层 Mamba-2 (SSD) 编码 patch 序列；(3) Multi-head Gated Attention 聚合为单一 slide 向量。使用 MoCo 风格对比损失训练。

关键设计¶

1. Feature Space Augmentation via Multiple FMs — 多FM特征空间增广

功能: 无需像素级增广即可生成用于对比学习的正样本对
核心思路: 同一患者的 WSI 经不同 FM（\(fe_n \in \{CTP, UNI, V2, H0\}\)）和不同放大倍率提取 patch 嵌入，这些嵌入构成同一 slide 的不同"视图"。查询 \(q\) 和正键 \(k^+\) 来自同一患者但不同 FM/放大倍率的嵌入
设计动机: 不同 FM 有不同的架构、预训练数据和训练目标，因此捕获互补的形态学特征。不同放大倍率提供多尺度上下文。这种在特征空间（而非像素空间）的增广对 FM 不变性免疫，是比传统增广更有效的对比学习正样本生成策略

2. Mamba-2 + Multi-head Gated Attention 架构

功能: 高效编码长序列 patch 嵌入并聚合为 slide 级别向量
核心思路: 架构为 \(z = f_A(f_S(f_E(H^{fe_n})))\)。嵌入模块 \(f_E\) 用 MLP+SiLU 将不同维度映射到共享 \(d\) 维空间；状态空间模块 \(f_S\) 用两层 Mamba-2 SSD 加残差连接编码序列；聚合模块 \(f_A\) 用 \(M\) 头门控注意力计算加权平均 \(z = \sum_k a_k \cdot H_{S,k}\)，其中 \(a_k\) 通过 tanh-sigmoid 门控机制计算
设计动机: Mamba-2 比 Transformer 在长序列上更高效，适合 WSI 的数千甚至数万 patch。门控注意力聚合比简单平均更能关注诊断相关区域

3. 灵活的推理模式（Single-FM / Multi-FM / Unseen-FM）

功能: 推理时可使用训练时见过或未见过的任意 FM
核心思路: Single-FM 模式：用编码嵌入 \(H_S\) 计算注意力权重但用原始 patch 嵌入 \(H^{fe_n}\) 做加权平均（Eq. 6）。Multi-FM 模式：多个 FM 的编码嵌入取平均后编码（Eq. 8）。Unseen-FM 模式：对训练时未见的 FM，仍通过嵌入模块将其映射到共享空间
设计动机: 嵌入模块学到的映射具有泛化性，使 Cobra 能将训练时未见的新 FM 也转化为更好的 slide 级特征提取器。这对不断涌现的新 FM 非常有价值

损失函数 / 训练策略¶

损失函数: InfoNCE 对比损失 \(\mathcal{L}_q = -\log \frac{\psi(q, k^+)}{\sum_i \psi(q, k_i)}\)，\(\psi(x_1, x_2) = \exp(\text{sim}(x_1, x_2)/\tau)\)
MoCo 风格训练: 键编码器通过动量更新 \(\theta_k \leftarrow m\theta_k + (1-m)\theta_q\)
预训练数据: 仅 3048 张来自 TCGA 的 WSI（跨 4 种组织类型），远少于 GigaPath 的 171K 或 PRISM 的 587K
模型规模: 仅 15M 参数

实验关键数据¶

主实验¶

15 个下游分类任务（TCGA 训练，CPTAC 外部验证），平均 AUC：

Slide Encoder	预训练数据	参数量	平均 AUC
Mean CTransPath	-	-	62.1
Mean Virchow2	-	-	73.8
GigaPath-SE	171K WSI	86M	71.5
CHIEF	60K WSI	1M	-
MADELEINE	21K WSI	5M	-
Cobra (V2)	3K WSI	15M	78.2

消融实验¶

Cobra 各组件贡献（推理模式对比）：

推理模式	平均 AUC	说明
Mean patch embedding (V2)	73.8	无 slide encoder
Cobra Single-FM (V2)	78.2	使用原始嵌入做加权平均
Cobra Multi-FM (4个)	77.5	融合所有训练 FM
Cobra + unseen FM	有提升	对未见 FM 也有效

关键发现¶

极高的数据效率：仅 3K WSI 预训练即超过用 171K WSI 的 GigaPath-SE，平均 AUC 78.2 vs 71.5
FM 无关性：Cobra 能将训练时未见的 FM（如新发布的 FM）也转化为更好的 slide 编码器
Single-FM 推理优于 Multi-FM：使用原始 patch 嵌入做加权平均（Eq. 6）优于使用编码后嵌入（Eq. 4），因为保留了 FM 特有的信息
低放大倍率也能工作：在计算效率与性能之间有良好的折中

亮点与洞察¶

"FM 本身就是增广"的思路极其简洁优雅：避免了传统 SSL 中设计增广策略的难题
仅 3K WSI + 15M 参数就达到 SOTA，数据效率令人惊讶，对资源受限机构非常友好
对未见 FM 的泛化能力使 Cobra 具有前瞻性价值——新 FM 不断涌现时无需重新训练

局限与展望¶

嵌入模块对未见 FM 的映射质量取决于嵌入维度匹配和特征空间相似性
仅在 4 种组织类型上预训练，对罕见肿瘤类型的泛化性未验证
Mamba-2 的序列建模假设 patch 有固定顺序，可能不最优
可探索更多 FM 组合和自适应的 FM 选择策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 多FM作为特征空间增广的思路原创且优雅
实验充分度: ⭐⭐⭐⭐⭐ — 15个下游任务、外部验证、多种基线、消融全面
写作质量: ⭐⭐⭐⭐ — 方法描述清晰，数学表述严谨
价值: ⭐⭐⭐⭐⭐ — 对计算病理学领域有重要意义，极高的数据效率和FM无关性具有实用价值