MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification¶

会议: CVPR 2026
arXiv: 2603.09374
代码: 有（已开源，论文中声明release）
领域: 医学图像 / 乳腺癌筛查
关键词: [多实例学习, 乳腺X线摄影, 预计算特征, 基础模型, 弱监督分类]

一句话总结¶

提出MIL-PF框架，将冻结的基础视觉编码器（DINOv2/MedSigLIP）与仅40k参数的轻量级MIL聚合头结合，通过预计算特征+双流（全局组织上下文+局部病变注意力）聚合，在大规模乳腺X线分类任务上以极低训练成本达到SOTA性能。

背景与动机¶

乳腺癌是女性最常见的恶性肿瘤和癌症死因首位，乳腺X线摄影（mammography）是首选筛查方式，但对放射科医生要求极高。乳腺X线有几个独特挑战：(1) 图像分辨率极高（最高4708×5844像素），端到端微调大模型计算成本高且常不现实；(2) 标注通常只到乳房级别（BI-RADS分级），缺乏像素级标注，属于弱监督场景；(3) 单次检查包含多个视角（CC、MLO等），需要跨视图联合推理。

现有方法要么需要端到端微调大型骨干网络（计算昂贵），要么使用领域特定的预训练编码器（如MammoCLIP）但泛化性受限。一个被忽视的问题是：强大的通用基础模型（如DINOv2）是否可以零样本泛化到乳腺X线这种分布外领域？如果可以，就能通过预计算特征来大幅降低实验成本。

核心问题¶

如何在不微调大型视觉编码器的前提下，利用冻结的基础模型特征，设计一个既能建模全局组织结构又能捕捉稀疏局部病变信号的轻量级分类框架，在大规模乳腺X线弱监督分类任务上达到SOTA？

方法详解¶

整体框架¶

MIL-PF分为两个阶段：(1) 特征预计算：用冻结的基础编码器F（DINOv2 ViT-Giant或MedSigLIP）分别提取每张乳腺图像的全局特征（整图编码）和局部特征（分块编码），构建嵌入数据集E；(2) MIL头训练：在预计算的嵌入上训练一个仅~40k参数的轻量级多实例学习聚合头，包含全局流聚合器、局部流注意力聚合器和最终分类层。

一个"bag"定义为同一乳房在同一检查中的所有视角图像。采用乳房级标签（而非病人级or图像级），因为放射科医生是综合所有视角形成报告的。

关键设计¶

双流嵌入数据集构建: 全局流G_i通过对每张完整图像编码获得全局上下文（组织密度、整体结构）；局部流T_i通过将图像切成非重叠tile网格、丢弃纯背景tile、对含乳腺组织的tile逐个编码获得。所有视角的tile嵌入合并为一个集合，与全局嵌入和bag标签组成统一的嵌入数据集E。
Perceiver风格交叉注意力聚合器（局部流）: 关键创新在于局部聚合器A_T的设计。Mean pooling会被大量背景tile稀释信号，max pooling只能捕捉单个最显著tile。使用Perceiver风格的交叉注意力：一个可训练的latent向量z作为query，所有tile嵌入投影为Key和Value，通过softmax(zK^T)V计算加权和，将最相关信息"拉取"到单个汇总向量中。仅用1个latent query即足够，增加更多无收益。
晚期融合分类头: 全局流和局部流各自聚合后的向量拼接，经最终分类层ℎ_θ映射为预测。聚合器内含2层MLP（embedding_dim→16→8，ReLU激活）。虽然更复杂的交互建模在原则上有用，但对此任务不是必需的——简单拼接即有效。
编码器选择的关键发现: 通用基础模型DINOv2 ViT-Giant和MedSigLIP在乳腺X线上零样本泛化能力出奇地好，大幅超越领域特定模型MammoCLIP（AUC 0.897 vs 0.870）。这验证了"冻结通用编码器+轻量任务头"的范式在医学影像中的可行性。

损失函数 / 训练策略¶

Binary Cross-Entropy损失
整个嵌入数据集可放入单个A100 40GB GPU的一个batch中
单次训练仅需5-7分钟，前向传播每乳房约2M FLOPS
每个实验运行36次独立训练，选验证集AUC最高的模型（虽然run间方差存在，最高2% AUC和11% Spec@Sens=0.9，但验证集选择策略可靠）
分类时不使用重叠tile，注意力图计算时使用75%重叠

实验关键数据¶

数据集	指标	MIL-PF (DINOv2 attn)	MIL-PF (MedSigLIP attn)	最佳基线	提升
EMBED BI-RADS	AUC	0.897	0.897	0.875 (SIL IL GMIC)	+0.022
EMBED BI-RADS	Spec@Sens=0.9	0.691	0.691	0.566 (SIL IL GMIC)	+0.125
VinDr BI-RADS	AUC	0.800	0.814	0.911 (SIL IL GMIC)	-0.097
VinDr Calcif.	AUC	0.967	0.967	0.954 (FPN-AbMIL)	+0.013
RSNA Cancer	AUC	0.923	0.923	0.914 (FPN-AbMIL mean)	+0.009
可训练参数	-	0.05M	0.04M	1.76-22.89M	35~458倍更少

消融实验要点¶

全MIL-PF vs 朴素SIL（仅全局视图）：AUC差距高达5%，Spec@Sens=0.9差距14%，证明MIL归纳偏置的有效性
编码器选择：DINOv2 Giant和MedSigLIP并列最优（AUC 0.897），BiomedCLIP（0.872）、MammoCLIP（0.870）、RADDINO（0.854）明显更低，最新DINOv3意外表现不佳（0.831）
注意力聚合 vs max聚合：注意力版本在多数配置下更优，尤其Spec@Sens=0.9提升明显
加入局部流（tile特征）总体有益，但效果因编码器和数据集而异
检测性能：在中大病灶上竞争力强，但小病灶mAP偏低（tile尺寸448-518限制了检测分辨率）

亮点¶

核心洞见是"通用基础模型冻结后直接用于乳腺X线，效果出人意料地好"——这挑战了"医学影像必须领域特定预训练"的普遍假设
仅40k参数的任务头，单次训练5-7分钟，可在A100上一个batch完成——这极大降低了研究门槛，尤其对资源受限的团队
36次独立训练+验证集选择的策略既利用了低训练成本的优势，又缓解了方差问题
MIL问题的形式化清晰且有普适性：嵌套层次结构+互补双流+弱标签，适用于很多医学影像场景

局限性 / 可改进方向¶

在小型数据集VinDr上的BI-RADS分类表现不及端到端微调方法（AUC 0.814 vs 0.911），冻结编码器在小数据集上优势不明显
小病灶检测能力受限于tile尺寸（448-518像素），可通过更小tile或多尺度策略改进
未利用患者历史检查数据或双侧对称性信息——作者指出这是重要的未来方向
run间方差较大（Spec@Sens=0.9高达11%），需要多次训练+选择策略，增加了实际使用复杂度
BI-RADS标签本身噪声大且放射科医生间一致性有限，限制了训练信号质量

与相关工作的对比¶

vs FPN-AbMIL/SetTrans (Mourão et al., MICCAI)：这些方法使用FPN骨干+注意力MIL，需1.76-5.38M参数端到端训练。MIL-PF在EMBED上全面超越（AUC 0.897 vs 0.875），在VinDr的钙化检测上也更优（0.967 vs 0.962）。关键优势是训练效率（参数量少35倍以上）
vs GMIC/SIL IL GMIC (Shen et al./Pathak et al.)：这些方法需要14-23M可训练参数。GMIC在EMBED上AUC仅0.816。SIL IL GMIC在VinDr上更强（0.911），但在最大规模EMBED上被MIL-PF超越
vs 领域特定编码器：MammoCLIP等领域特定模型在分布外数据集上泛化不如DINOv2/MedSigLIP，表明大规模通用预训练的表示更具鲁棒性

启发与关联¶

"冻结基础模型+轻量任务头"的范式在医学影像中的有效性值得进一步探索——可以扩展到病理学、放射学等其他高分辨率弱监督场景
Perceiver风格的稀疏注意力聚合器适合ROI稀疏的场景，可用于任何需要从大量背景中筛选关键信号的MIL任务
预计算特征使得快速实验迭代和编码器比较成为可能——这种方法学推动研究效率
与idea 20260317_mamba_light_medical_seg.md 和 20260317_resolution_invariant_medical_tta.md 有关联，特别是在医学影像的高效推理和域泛化方面

评分¶

新颖性: ⭐⭐⭐ 方法本身是已有组件（MIL+冻结编码器+交叉注意力）的组合，核心发现（通用编码器泛化到mammography）是实验观察而非方法创新
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多编码器对比、36次运行、完整消融、检测可解释性分析、与多个SOTA基线复现比较
写作质量: ⭐⭐⭐⭐ 问题形式化清晰、实验设计严谨、结果呈现完整
价值: ⭐⭐⭐⭐ 对医学影像研究社区有重要实践价值——展示了低资源高效研究路径，但方法创新有限
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐
对我的价值: ⭐⭐⭐