Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning¶

会议: CVPR 2026
arXiv: 2603.00667
作者: Wentao Huang 等 (Stony Brook University, Mayo Clinic, Harvard/MGH, Stanford)
领域: 医学图像 / 病理VQA
关键词: Whole Slide Image, Visual Question Answering, Information Bottleneck, Patch Selection, 组织感知推理

一句话总结¶

提出 HistoSelect 框架，模拟病理学家从粗到细的推理过程，通过组织分割→Group Sampler→Patch Selector 的三级筛选机制，基于信息瓶颈(IB)理论压缩无关视觉token，在减少约70%计算量的同时实现三个数据集上的SOTA。

研究背景与动机¶

病理全切片图像(WSI)是癌症诊断的金标准，但一张WSI包含数万个patch，直接输入大语言模型面临两大瓶颈：

计算瓶颈：WSI分辨率可达100,000×100,000像素，切分后产生数万patch，每个patch编码为一个visual token，远超LLM上下文窗口
信息冗余：病理学家在诊断时并非逐patch查看，而是先识别组织类型，再聚焦于与问题相关的区域——大部分patch与当前问题无关

现有方法如Q-Instruct、PathChat等要么均匀采样（丢失关键信息），要么全量输入（计算不可行）。核心矛盾是：如何在大幅减少token数的同时保留诊断相关信息？

病理学家的实际工作流提供了天然灵感：先低倍镜概览组织结构，再高倍镜深入可疑区域。HistoSelect 正是将这一"粗到细"推理过程形式化。

方法详解¶

整体框架¶

HistoSelect 包含三个核心阶段，模拟病理学家的认知流程：

Tissue Segmentation (组织分割)：将WSI的patch按组织类型分组
Group Sampler (组级采样)：决定每组的采样比例
Patch Selector (patch级选择)：在每组内精选最相关patch

最终选出的patch送入VLM进行问答。

关键设计¶

阶段1：组织感知分组

病理学家预定义 M 个组织类型文本prompt（如"tumor tissue"、"stroma"、"necrosis"等）
利用 CONCH（一种病理领域的CLIP模型）计算每个patch特征与组织prompt的余弦相似度
每个patch分配到相似度最高的组织类型组，得到 M 个组 \(\{G_1, G_2, \ldots, G_M\}\)

阶段2：Group Sampler（基于IB的组级采样）

对每组计算组蛋白型向量 \(g_j\)（组内patch特征的均值）
将 \(g_j\) 与问题编码 \(q\) 拼接，送入两层MLP → sigmoid，输出采样率 \(r_j \in (0,1)\)
\(r_j\) 决定该组应保留的patch比例，即 \(k_j = \lceil r_j \cdot N_j \rceil\)
IB目标：最大化 \(r_j\) 与答案的互信息，同时最小化 \(r_j\) 的复杂度

阶段3：Patch Selector（逐patch硬选择）

对每个patch计算选择概率 \(s_i = \sigma(F_{\text{patch}}([x_i; q]))\)，其中 \(F_{\text{patch}}\) 是小型MLP
在 \(G_j\) 内按 \(s_i\) 排序，选择 top-\(k_j\) 个patch
使用 Straight-Through Estimator (STE) 解决硬选择的不可微问题

损失函数 / 训练策略¶

总损失由三项组成，体现双层IB压缩思想：

\[L = L_{\text{VQA}} + \lambda_1 L_{\text{group}} + \lambda_2 L_{\text{patch}}\]

\(L_{\text{VQA}}\)：标准VQA交叉熵损失
\(L_{\text{group}}\)（组级IB正则）：Bernoulli KL散度，\(r_j\) 与基于余弦相似度的先验之间的KL
\(L_{\text{patch}}\)（patch级IB正则）：Bernoulli KL散度，\(s_i\) 与patch-question余弦相似度先验之间的KL

训练策略： - 端到端联合训练 Group Sampler、Patch Selector 和 VLM - STE 保证梯度通过硬选择操作回传 - 余弦相似度先验作为无监督的弱信号指导选择

实验关键数据¶

主实验¶

方法	SlideBench-VQA (Acc)	WSI-Bench (Acc)	In-house 卵巢 (Acc)	Visual Token 减少
Random Sampling	52.3	48.7	61.2	70%
Q-Instruct	56.1	51.3	64.8	0%
PathChat	58.4	53.9	67.3	0%
HistoSelect	63.7	58.2	73.6	~70%

在 356K QA 对上训练，三个数据集一致SOTA。

消融实验¶

配置	SlideBench-VQA	变化
Full HistoSelect	63.7	—
w/o Group Sampler	59.8	-3.9
w/o Patch Selector	60.5	-3.2
w/o IB Loss (group)	61.2	-2.5
w/o IB Loss (patch)	61.8	-1.9
Random patch selection	55.1	-8.6

关键发现¶

双层筛选缺一不可：去掉Group Sampler或Patch Selector均显著下降，证明粗到细的两级筛选互为补充
IB正则有效：去掉IB损失后性能下降，说明先验引导的信息压缩不仅降计算还提精度
可解释性强：所选patch与资深病理学家标注的诊断关键区域高度一致，验证了方法的临床合理性
70%压缩无损：大幅减少token数的同时性能反超全量输入方法，说明去除噪声patch本身有益

亮点与洞察¶

认知启发的设计：从病理学家的"粗看→细查"工作流出发，将领域知识编码为模型架构，比纯数据驱动更高效
IB理论的优雅应用：信息瓶颈从理论概念到双层（组级+patch级）的实际落地，Bernoulli KL + 余弦先验的设计简洁有效
STE解决硬选择：硬采样比软注意力更符合实际需求（真正减少计算），STE保证可训练
临床可解释性：不只是跑分，选出的patch与病理学家认知一致，增加了方法的可信度和实用性

局限性 / 可改进方向¶

组织类型需预定义：M个组织prompt由领域专家手工设定，跨疾病/跨器官迁移时需重新配置
CONCH依赖：分组质量受限于CONCH模型在特定病理领域的编码能力，尾部罕见组织类型可能分组不准
硬选择的信息丢失：虽然STE能训练，但被丢弃的patch中仍可能包含微弱但有用的上下文信息
多尺度未考虑：当前方法在单一放大倍率下工作，未利用WSI的多尺度金字塔结构
计算量仍需关注：CONCH编码所有patch + MLP推理的前置开销在超大WSI上可能不可忽略

评分¶

维度	分数 (1-5)	说明
创新性	4	IB双层压缩+病理认知流程的结合新颖
技术深度	4	信息论基础扎实，STE/先验设计合理
实验充分度	4	三数据集+消融+可解释性分析
实用价值	5	减70% token且性能提升，临床可落地
写作清晰度	4	思路清晰，图示直观
总分	4.2	认知启发+信息论的优雅结合