Do Multiple Instance Learning Models Transfer?¶

会议: ICML2025
arXiv: 2506.09022
代码: mahmoodlab/MIL-Lab
领域: medical_imaging / 计算病理学 / 多实例学习
关键词: Multiple Instance Learning, Transfer Learning, Computational Pathology, Slide Foundation Model, Pancancer Pretraining

一句话总结¶

首次系统评估计算病理学中 MIL 模型的迁移学习能力，发现在 pancancer 数据集上预训练的 MIL 模型能够跨器官、跨任务泛化，以不到 10% 的预训练数据超越自监督 slide foundation model（CHIEF、GigaPath）。

研究背景与动机¶

核心问题：MIL（多实例学习）是计算病理学处理千兆像素全切片图像（WSI）的基石范式，但受制于小规模弱监督临床数据集，模型性能受限。在 NLP 和传统 CV 中迁移学习已广泛用于应对数据稀缺，但 MIL 模型的可迁移性却几乎未被研究过——目前随机初始化仍是 MIL 模型开发和评估的标准做法。

研究动机：

尽管 patch 级别编码器（UNI、Virchow 等）的迁移学习已被广泛采用，但 slide 级别聚合器的迁移学习完全被忽视
自监督 slide foundation model（CHIEF、GigaPath）需要数万甚至十几万张 WSI 进行预训练，数据和计算成本极高
作者假设：在大规模多类别 pancancer 分类任务上有监督预训练的 MIL 模型，可以作为一种简单而有效的 slide foundation model 替代方案

MIL 工作流程回顾：给定一张 WSI，首先用预训练 patch encoder 将其分割为 patch 并提取特征（\(\sim\)1000–10000 个 patch），然后通过可训练的聚合器将所有 patch 特征池化为一个 slide 级别表示，用于下游分类。

方法详解¶

实验框架：有监督 MIL 迁移¶

对于 MIL 架构 \(f\)、预训练任务 \(s\)、目标任务 \(t\)，研究回答三个核心问题：

\(f_{s \to t}\) vs. \(f_{\text{rand} \to t}\)：预训练是否优于从头训练？
\(f_{s \to t}\) vs. \(f_{s' \to t}\)：不同预训练任务迁移效果如何？
\(f_{s \to t}\) vs. \(f'_{s \to t}\)：不同架构迁移能力有何差异？

评估设置¶

11 种 MIL 架构：ABMIL、CLAM、DSMIL、DFTD、TransMIL、Transformer、ILRA、RRT、WIKG、MeanMIL、MaxMIL
21 个预训练任务 + 19 个目标任务：涵盖乳腺、肺、前列腺、脑 4 个器官，包含癌症分类、分级、分子亚型预测等
Pancancer 预训练任务：PC-43（43 类）和 PC-108（108 类 OncoTree 编码），来自 17 种器官的 3,499 张 WSI
两种评估方式：端到端微调 + 冻结特征 KNN 评估

标准化实现¶

Patch 切分：\(256 \times 256\)，20× 放大（0.5 μm/pixel）
Patch 编码器：UNI（DINOv2 预训练 ViT-L/16）
优化器：AdamW，学习率 \(1 \times 10^{-4}\)，cosine 衰减
最大 20 epoch，早停 patience = 5

实验关键数据¶

预训练任务质量对比（KNN 冻结特征评估）¶

预训练策略	相对 baseline 平均提升
PC-108 pancancer	+9.8%
PC-43 pancancer	+8.6%
单器官任务（域内）	+3–6%
单器官任务（域外）	+1–4%
随机初始化 baseline	0%

关键发现：即使是跨器官的预训练（如肺→乳腺），也能带来显著提升。

11 种架构微调迁移（PC-108 预训练 vs 随机初始化）¶

架构	随机初始化	PC-108	Δ
ABMIL	71.7	75.5	+3.8
DFTD	69.6	76.6	+7.0
TransMIL	68.1	73.9	+5.8
Transformer	68.5	74.3	+5.8
DSMIL	72.3	73.0	+0.7
CLAM	69.0	70.5	+1.5
WIKG	69.3	74.7	+5.4
所有模型平均	70.1	73.4	+3.3

Few-shot 学习（K=4,16,32 samples/class）¶

DFTD 在 K=4 时，PC-108 预训练相比随机初始化提升 171%
所有 5 种方法在所有 shot 数下，pancancer 预训练均优于随机初始化
PC-108 始终优于 PC-43，说明更细粒度的分类任务带来更好的数据效率

对比 Slide Foundation Model¶

项目	PC-108 ABMIL	CHIEF	GigaPath
预训练数据量	3,944 WSI	60,530 WSI	171,189 WSI
预训练方式	有监督分类	对比学习+CLIP	自监督 MAE
KNN 胜出任务数	12/15 vs CHIEF	3/15	2/15
微调胜出任务数	11/15 vs CHIEF	4/15	5/15
KNN 平均提升	—	+5.9% over CHIEF	+9.7% over GigaPath

PC-108 仅用 CHIEF 6.5%、GigaPath 2.3% 的预训练数据，在大多数任务上取得更优结果。

模型规模与迁移¶

随机初始化在不同模型规模上性能波动大
PC-108 预训练下，性能从 0.1M 到 5M 参数单调递增，展现出良好的 scaling 趋势
9M 参数时性能略降，但仍大幅优于随机初始化

迁移的关键组件分析¶

通过逐层重置实验（ABMIL 四层结构）：

重置策略	相对完整迁移的性能下降
重置 Attention 层	-5.0%
重置 Attention + 线性层3	-5.2%
重置 Attention + 线性层2+3	-6.6%
全部重置（=随机初始化）	-8.3%

Attention 聚合层是迁移知识的核心载体，与 CNN 迁移中后层不重要的结论不同。

亮点与洞察¶

"预训练比架构重要"：随机初始化最优架构（DSMIL 72.3）低于 9/11 种预训练后架构的性能，说明好的初始化比好的架构更重要
简单架构 + 好初始化 = 最优：ABMIL 作为最简单的注意力池化方法，在预训练后表现最佳，验证了"强 patch encoder + 简单聚合器"的有效性
有监督 pancancer 预训练 > 大规模自监督：以极少数据（~4k WSI）超越用 6–17 万 WSI 预训练的 foundation model，说明精心设计的分类任务比堆数据更有效
注意力热力图可视化：预训练模型在微调前就已关注肿瘤区域，而随机初始化模型注意力弥散——预训练帮助模型避免虚假相关
跨 patch encoder 一致有效：在 ResNet-50、CTransPath、GigaPath ViT、UNIv2、CONCHv1.5 五种编码器上均观察到 PC-108 预训练带来的提升

局限与展望¶

缺少 State-Space MIL 模型：如 Mamba 系列架构未纳入评估
未评估生存预测任务：仅覆盖分类/分级，未涉及 Cox 回归等生存分析
预训练数据来源单一：PC-108 全部来自 Brigham and Women's Hospital，可能存在机构偏差
未探索增强预训练策略：如数据增广、自监督+有监督混合预训练可能进一步提升
Patch encoder 冻结：全程使用冻结的预训练 patch encoder，未探索端到端联合微调

评分¶

新颖性: ⭐⭐⭐⭐ — 首个系统研究病理 MIL 迁移学习的工作，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ — 11 架构 × 21 任务 × 多种编码器，规模极大且设计严谨
写作质量: ⭐⭐⭐⭐ — 结构清晰，结论有力，图表信息量大
价值: ⭐⭐⭐⭐⭐ — 对病理 AI 社区有直接实用价值，开源权重和代码