MR-PLIP: Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation¶

会议: CVPR 2025
arXiv: 2504.18856
代码: https://github.com/BasitAlawode/MR-PLIP
领域: 医学图像 / 病理学
关键词: 多分辨率病理, 视觉语言模型, 跨分辨率对齐, 组织病理学, 全切片图像

一句话总结¶

提出 MR-PLIP，首个多分辨率病理学视觉语言预训练模型，在 TCGA 数据集的 3400 万张多分辨率图文对上预训练，通过跨分辨率视觉-文本对齐和文本引导视觉表示，在 26 个数据集上超越 SOTA。

领域现状：现有病理学 VLM（PLIP、QuiltNet 等）仅在单一放大倍率下训练，而病理诊断需要多尺度分析（低倍看组织架构，高倍看细胞形态）。

现有痛点：实验表明 SOTA VLM 在不同放大倍率下性能波动大——5× 和 40× 通常表现最差，说明现有模型缺乏跨分辨率泛化能力。

核心 idea：在 5×/10×/20×/40× 四个放大倍率下提取图像和对应文本描述，通过 CVTA 和 MRTVA 两个模块实现跨分辨率对齐。

多分辨率图文对生成：从 20K WSI 提取 3400 万 patch（每个 5× patch 对应 4 个 10×、16 个 20×、64 个 40×），用 Quilt-LLaVA 为每个 patch 生成文本描述，构建视觉袋和文本袋
跨分辨率视觉-文本对齐（CVTA）：对每个视觉特征 \(v_a\)，从文本袋中找到 top-\(k_o\) 个正样本关键词（余弦相似度最高），用对比损失对齐
多分辨率文本引导视觉表示对齐（MRTVA）：将视觉和文本特征送入多模态编码器得到文本引导视觉表示 \(z_{i,j}^r\)，用 SimSiam 框架在父子分辨率间对齐这些表示

总损失 = CVTA 对比损失 + MRTVA SimSiam 损失。使用 UNI（ViT-L/16）作为视觉编码器，QuiltNet 的文本编码器。

在 26 个公开病理数据集上全面评估（零样本/线性探测/完全微调）： - 零样本分类：加权 F1 在多数数据集上超越 PLIP、QuiltNet、CONCH 等 - 跨分辨率泛化：各放大倍率下性能稳定

放大倍率	PLIP F1	MR-PLIP F1	提升
5×	0.62	0.71	+14.5%
10×	0.68	0.74	+8.8%
20×	0.71	0.76	+7.0%
40×	0.59	0.72	+22.0%