Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification¶

会议: ECCV 2024
arXiv: 2407.10814
代码: 暂无
领域: LLM/NLP
关键词: 病理图像分析, 提示学习, 多实例学习, 少样本分类, CLIP

一句话总结¶

提出 PEMP——病理知识增强的多实例提示学习框架，将视觉和文本病理先验（典型 patch/slide 示例 + 语言描述）注入 CLIP 的提示中，在 patch 和 slide 两个层级进行对比学习，显著提升少样本全切片图像（WSI）分类性能。

研究背景与动机¶

WSI 分类的数据稀缺困境：
- 病理切片获取受限于患者隐私、罕见疾病发生率
- 现有 MIL 方法需要大量切片训练，在少样本场景下表现不佳
Few-shot Weakly Supervised WSI Classification (FSWC)：
- 仅有 2/4/8/16/32 张带标签切片用于训练
- 每张切片包含数千个 patch，patch 级标签未知
现有提示学习方法的不足：
- MI-Zero/PLIP 仅关注 patch 级文本提示
- CoOp 等通用方法不理解病理专业术语
- TOP 引入了语言描述但缺乏视觉侧的任务特定知识
核心灵感：模拟病理医生从教科书学习——同时接触典型病理图像和对应文字描述

方法详解¶

整体框架¶

PEMP = 视觉提示学习（patch+slide 级视觉示例 + 可学习提示）+ 文本提示学习（任务描述 + slide/patch 病理描述 + 可学习提示）+ 双层对比对齐

关键设计¶

1. 视觉提示学习 - 构建视觉 patch 示例：由病理专家从权威来源选取典型 patch（如"血管侵犯"、"高级别不典型增生"、"坏死"等） - 构建视觉 slide 示例：如"浸润型模糊瘤界+低肿瘤间质比" vs "推挤型清晰瘤界+高肿瘤间质比" - 固定示例特征与当前 patch 特征拼接 → Messenger Layer（自注意力）建模 patch 间关系 → Summary Layer（注意力池化）聚合为 slide 特征 - 额外引入可学习 slide 级提示 \(F_i^P\)

2. 文本提示学习 - Slide task [Token]："A Whole Slide Image of cervical cancer with a [poor/good] prognosis" + 可学习向量 - Slide-level descriptive [Token]：slide 级病理描述（如"模糊的肿瘤边界"）+ 可学习向量 - Patch-level descriptive [Token]：patch 级特征描述（如"血管淋巴管侵犯"）+ 可学习向量 - 语言描述由病理专家提供，避免晦涩术语

3. 双层对比对齐 - \(\mathcal{L}_{total} = \mathcal{L}_t + \lambda_1 \mathcal{L}_s + \lambda_2 \mathcal{L}_p\) - \(\mathcal{L}_t\)：slide 视觉特征 ↔ slide 文本特征（主分类） - \(\mathcal{L}_s\)：slide 视觉示例 ↔ slide 病理描述（slide 级对齐） - \(\mathcal{L}_p\)：patch 视觉示例 ↔ patch 病理描述（patch 级对齐）

损失函数 / 训练策略¶

所有损失均为对比学习形式的负对数似然
CLIP 编码器参数完全冻结
仅训练：可学习提示向量、Messenger Layer、Summary Layer、Projector
5 次独立实验取平均

实验关键数据¶

主实验（宫颈癌预后预测 C-index）¶

方法	32-shot	16-shot	8-shot	4-shot	2-shot
LinearProbe	0.620	0.562	0.543	0.501	0.458
CoOp	0.641	0.594	0.561	0.517	0.490
TOP	0.652	0.608	0.574	0.539	0.508
PEMP	0.667	0.637	0.614	0.587	0.562

圆细胞亚型诊断（AUC）¶

方法	32-shot	16-shot	8-shot	4-shot	2-shot
TOP	0.682	0.652	0.633	0.584	0.560
PEMP	0.751	0.718	0.685	0.643	0.625

平均超越 TOP 约 6.2% AUC（罕见肿瘤诊断）

关键发现¶

PEMP 在所有三个临床任务的所有 shot 设置下均达最优，平均超越对比方法 4%
极少样本场景优势更大（2-shot/4-shot 提升尤其显著）
消融：去掉视觉示例（w/o vision em.）→ 性能下降明显；去掉 Summary Layer → 退化最严重
TCGA 公开数据集验证：使用相同的 prompt，无数据泄露，仍保持优势

亮点与洞察¶

病理知识注入方式很巧妙：用"典型病例图+简单语言描述"而非复杂术语，降低了 VLM 理解门槛
双层（patch+slide）提示设计完整覆盖了 WSI 从局部到全局的分析需求
Messenger Layer + Summary Layer 提供了轻量级的 patch-to-slide 聚合方案
在罕见肿瘤诊断（数据极度稀缺）场景中展现出最大价值

局限性 / 可改进方向¶

视觉示例需要病理专家手动选取，自动化程度有限
仅在宫颈癌和圆细胞肿瘤上验证，需更多肿瘤类型验证通用性
依赖 CLIP 骨干，而 CLIP 在病理域的预训练可能不充分
未与 CONCH 等最新病理 VLM 进行对比

评分¶

新颖性：⭐⭐⭐⭐（病理知识增强提示的完整设计）
技术深度：⭐⭐⭐⭐
实验充分度：⭐⭐⭐⭐（3 个临床任务 + 公开数据集验证）
写作质量：⭐⭐⭐⭐
综合推荐：⭐⭐⭐⭐