A protocol for evaluating robustness to H&E staining variation in computational pathology models¶

会议: CVPR 2026
arXiv: 2603.12886
代码: GitHub / HuggingFace
领域: 医学图像 / 计算病理学
关键词: 计算病理, H&E染色, 鲁棒性评估, 模型选择, 微卫星不稳定性(MSI)

一句话总结¶

提出三步评估协议（选参考染色条件→表征测试集染色属性→模拟染色条件推理），系统量化306个MSI分类模型对H&E染色差异的鲁棒性，发现鲁棒性与分类性能呈弱负相关(r=-0.28)，高性能不代表高鲁棒性。

背景与动机¶

计算病理(CPath)模型依赖H&E染色的全切片图像(WSI)做输入，但不同实验室的染色协议、试剂浓度、扫描仪差异导致WSI外观变化很大。现在主流pipeline是用冻结的foundation model(UNI2-h、Virchow2等)提取特征+ABMIL做分类，训练阶段的染色增强/归一化对冻结的预训练特征影响有限。虽然foundation model提升了泛化，但远没有消除染色敏感性。然而现有评估方法要么用图像级参考、要么用GAN变换、要么用物理重染色，都无法将性能变化归因到可量化的染色属性上。

核心问题¶

缺乏系统性方法来量化CPath模型对H&E染色差异的敏感性。现有评估无法回答：模型在哪种染色条件下会掉点？掉多少？不同foundation model对染色变化的鲁棒性差异有多大？这直接影响临床部署时的模型选择和实验室质控。

方法详解¶

这不是一篇提出新模型的论文，而是一篇提出评估协议的论文。核心贡献是一个三步评估流程，将模型推理时的染色条件锚定到可量化的参考空间。

整体框架¶

输入：训练好的CPath模型 + 测试集WSI → 三步协议 → 输出：每个模型在不同染色条件下的AUC + 鲁棒性指标(min-max AUC range)

关键设计¶

染色分解与可控重组(Stain Decomposition & Recomposition): 基于Beer-Lambert定律和Macenko方法，将每个像素的光密度(OD)分解为苏木精(H)、伊红(E)和残差(R)三个分量。通过替换染色向量和染色强度（95th百分位），可以将WSI"重新染色"到目标条件，同时保留组织结构不变。残差分量缩小100倍以消除影响。
PLISM参考染色库(Step 1): 用PLISM数据集（46种组织类型 × 13种染色协议 × 13种扫描仪）构建参考库。从中选出4个极端条件：低/高H&E强度（强度变化）、高/低H&E颜色相似度（颜色变化，Harris苏木精=最不相似，Gill=最相似）。这些参考条件有真实的实验室来源，不是随意设定的。
测试集染色表征(Step 2): 对测试集(SurGen)每张WSI采样10个tile，提取slide-level的染色向量和H&E强度。这些参数作为模拟的起点。
模拟条件推理(Step 3): 对每张WSI做tile分解，用slide自身的染色向量做分解，再用PLISM参考条件的目标向量/强度做重组，模拟出4种染色条件下的tiles，送入模型推理。强度条件只变强度不变颜色，颜色条件只变颜色不变强度。

损失函数 / 训练策略¶

300个模拟模型用ABMIL + AdamW (lr=5e-5) + cosine annealing + early stopping (patience=5)训练，3个foundation model(UNI2-h, H-Optimus-1, Virchow2)各100个。通过随机种子、weight decay(0或1e-4)、不同数据划分、随机排除0-10个机构来制造"合理的模型多样性"——模拟临床中可能收到的不同模型。

实验关键数据¶

模型类型	AUC范围(性能)	Min-Max范围(鲁棒性)	与性能的相关性
全部306个模型	0.769-0.911	0.007-0.079	r=-0.28
UNI2-h+ABMIL (100)	median 0.881	0.009-0.013(top)	r=-0.51
H-Optimus-1+ABMIL (100)	median 0.865	0.020-0.024(top)	r=-0.14(不显著)
Virchow2+ABMIL (100)	median 0.856	较大	r=-0.36
CTransPath+Wagner2023 (1)	AUC 0.911	0.021	-

染色条件	最佳模型数(306中)	Median ΔAUC	最差AUC下降
原始参考	65	-	-
低强度	30	-0.50%	-4.50%
高强度	127	+0.12%	-4.36%
低H&E颜色相似度	51	-0.07%	-3.17%
高H&E颜色相似度	33	-0.57%	-7.78%

消融实验要点¶

UNI2-h最鲁棒: top 10模型中以UNI2-h+ABMIL为主，鲁棒性范围仅0.009-0.013，远好于H-Optimus-1(0.020-0.024)和Virchow2
高强度最有利: 127/306个模型在高强度条件下达到最佳AUC，高强度染色给模型更清晰的形态信息
高H&E颜色相似度最危险: 最差情况下AUC下降7.78%，苏木精和伊红颜色太接近让模型难以区分组织结构
苏木精强度主要由染色协议决定，伊红/颜色相似度更受扫描仪影响 — 扫描仪通常固定，所以调整染色协议来适配扫描仪是可行的QC策略
Wagner2023(CTransPath)意外进入top 3: 虽然CTransPath foundation model本身鲁棒性不如UNI2-h，但训练在16个cohort(13,000+患者)上的TransMIL聚合器弥补了这一差距，说明聚合器训练可以缓解foundation model的染色敏感性

亮点 / 我学到了什么¶

评估协议本身就是顶会贡献 — 不需要提新模型、新loss，定义清楚评估方法+大规模实验就够了。这种"benchmark/protocol"范式值得学习
制造"合理的模型多样性"的实验设计很巧妙 — 不是只评估一个最佳模型，而是通过随机种子/划分/超参数生成300个模型，模拟clinical setting中"你可能拿到的任何一个模型"。这让结论更可靠
可量化的参考空间 — 把染色变化锚定到PLISM数据集的真实染色条件，而不是随意扰动。perturbation有物理意义(某家实验室的Harris苏木精 vs Gill苏木精)
性能高≠鲁棒 (r=-0.28) — 这个发现非常实用，意味着clinical deployment不能只看AUC排名
聚合器可以"拯救"弱foundation model — Wagner2023用CTransPath但鲁棒性进top 3

局限性 / 可改进方向¶

PLISM参考库覆盖不足: SurGen数据集的染色角度范围已超出PLISM的高/低相似度参考，需要更多实验室的数据
只测了4个离散条件: 没有探索连续或非线性效应，无法画出"性能-染色强度"的完整curve
只测了MSI分类任务: 不清楚对分割、检测等其他下游任务结论是否一致
只建模标准组织区域: 血液、坏死、高色素区域在染色变化下行为不同，当前方法忽略了这些
没有评估stain augmentation的缓解效果: 只做了评估，没有给出"如何修复"的方案
→ 可扩展到IHC等其他染色类型、其他病理任务、连续染色条件的系统评估 → 关联 ideas/20260316_medical_bias_audit.md

与相关工作的对比¶

vs Macenko (2009) / 染色归一化方法: Macenko是"修复"染色差异的方法（训练时用），本文是"评估"染色差异影响的方法（部署时用）。互补关系而非替代
vs Schoemig-Markiefka (2021) / Vu (2022) 图像级评估: 之前工作用图像级参考做评估，无法将性能变化归因到具体的染色属性（强度？颜色？）。本文用可分解的H/E强度和向量做模拟，能精确知道是哪种变化导致了掉点
vs Chai (2026) 物理重染色: 物理重染色/重扫描是gold standard但成本极高且难以规模化。本文用计算模拟替代，可以在任意模型上快速评估

与我的研究方向的关联¶

直接关联 ideas/20260316_medical_bias_audit.md（医学图像基础模型偏差审计）—— 本文的三步评估协议可以作为偏差审计框架中"设备/机构偏差"维度的一个子模块
评估协议设计范式可迁移：定义参考空间 → 表征测试条件 → 模拟推理。这个范式可以套用到其他domain shift评估（CT厂家差异、MRI参数差异等）
Foundation model鲁棒性比较(UNI2-h > H-Optimus-1 > Virchow2)为选择医学视觉backbone提供参考

评分¶

新颖性: ⭐⭐⭐ 方法上不新（染色分解是经典的Macenko），创新在于系统性评估协议的设计和大规模实验
实验充分度: ⭐⭐⭐⭐⭐ 306个模型、3个foundation model、4种染色条件、bootstrap CI，非常扎实
写作质量: ⭐⭐⭐⭐ 结构清晰，协议描述严谨，但篇幅较长
对我的价值: ⭐⭐⭐ 评估协议的设计思路可借鉴，对染色鲁棒性问题的理解有帮助，但不直接对应我的核心方向