Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation¶

会议: ICCV 2025
arXiv: 2507.11055
代码: https://github.com/ShuchangYe-bib/ProLearn
领域: 医学图像分割 / 多模态学习
关键词: 医学图像分割, 语言引导分割, 原型学习, 文本依赖, 语义近似

一句话总结¶

提出ProLearn框架，首次通过原型驱动的语义近似（PSA）模块从根本上缓解医学语言引导分割对文本的依赖——仅需少量图文配对数据初始化原型空间，训练和推理均可无文本输入，在1%文本可用性下仍保持强劲性能（QaTa-COV19 Dice=0.857），且参数量比LLM方案减少1000倍，推理速度快100倍。

研究背景与动机¶

深度学习推动了医学图像分割的发展，从U-Net到其变体（U-Net++、Attention U-Net、TransUNet等）已广泛应用。近年来，将临床报告文本作为辅助引导的多模态分割方法（如LViT、GuideSeg）展现出超越单模态方法的潜力，因为文本提供了病变的显式语义描述。

然而，语言引导分割存在固有的"文本依赖"问题：(1) 训练阶段——大量医学分割数据集没有配对报告，大部分纯图像数据被浪费；(2) 推理阶段——推理时需要配对报告限制了其仅能用于回顾性分析，而大多数临床场景（如术前规划、实时手术引导、诊断决策）中分割是在报告生成之前进行的。

前序工作SGSeg尝试用LLM（GPT-2、Llama3）在推理时从图像生成合成报告来弥补文本缺失，但引入了B级参数的LLM导致模型臃肿、推理缓慢，不适合边缘设备和实时应用，且训练阶段的文本依赖仍未解决。

本文的关键洞察是：语言引导分割中的关键引导并非完整临床报告（往往冗长且含不相关信息），而是其中与分割相关的特定语义特征。且医学报告的语义空间天然受限——临床报告遵循标准化医学术语，词汇相对封闭。基于这一洞察，可以用有限的原型来离散表示分割相关语义。

方法详解¶

整体框架¶

ProLearn = PSA模块 + Language-guided U-Net。PSA模块一次性从少量图文配对数据中初始化原型空间，此后训练和推理时通过"查询-响应"机制从图像特征查询原型空间获取近似的语义引导，无需文本输入。原型空间在训练中动态学习更新。

关键设计¶

PSA初始化（一次性过程）:
- 功能：从可用的 $K$ 个图文配对样本中构建可查询的原型空间
- 核心思路：
  - 代理标签提取：用BioMedCLIP编码器提取图像特征 $e_i^I$ 和文本特征 $e_i^T$。用单独训练的Language-guided U-Net的交叉注意力权重筛选高注意力token（$\alpha_j > \tau$），得到分割相关的缩短句子 $T_i^{\text{selected}}$，编码为语义特征 $e_i^{\text{sem}}$
  - 层次聚类：用HDBSCAN对 $e_i^{\text{sem}}$ 聚类为 $N$ 个代理标签，每个代理标签代表一种独特的分割相关语义
  - 原型空间构建：在每个文本代理标签簇 $\mathcal{C}_i$ 内，用K-means对图像特征 $e_k^I$ 进一步聚为 $M$ 个子簇。取每个子簇最接近质心的样本（非质心本身，以减少异常值影响）作为原型对 $(q_{ij}, r_{ij})$，构建查询空间 $\mathcal{S}^Q$（图像原型）和响应空间 $\mathcal{S}^R$（文本原型），维度 $N \times M \times D$
- 设计动机：两级聚类策略——先按文本语义分粗类，再按视觉特征分细类——使原型空间既紧凑又能表达比文本更丰富的视觉多样性
PSA查询与响应机制:
- 功能：在训练和推理中为任意图像提供近似的语义引导
- 核心思路：
  - 查询：图像编码特征 $q^* = f_{\text{enc}}^I(I^*)$ 与查询空间所有原型计算余弦相似度 $s_{ij} = s(q^*, q_{ij})$，选择top-$k$最相似原型 $Q^*$
  - 响应：找到 $Q^*$ 对应的文本响应原型 $R^*$，用softmax归一化的相似度加权求和： $$r^* = \sum_{r_i \in R^*} w_i r_i, \quad w_i = \frac{\exp(s(q^*, q_i))}{\sum_{q_j \in Q^*} \exp(s(q^*, q_j))}$$
  - 响应 $r^*$ 送入U-Net解码器引导分割
- 设计动机：原型学习时间复杂度 $\mathcal{O}(1)$（查询固定大小的原型空间），vs LLM自回归生成的 $\mathcal{O}(n)$。仅1M参数 vs GPT-2的1.5B / Llama3的7B
Language-guided U-Net:
- 功能：以PSA响应作为语义引导进行图像分割
- 核心思路：标准U-Net编码器提取图像特征用于PSA查询，解码器接收PSA响应的近似语义特征引导解码分割掩码
- 设计动机：复用已有的语言引导分割架构，PSA模块作为即插即用组件替代文本编码器

损失函数 / 训练策略¶

标准分割损失（Dice Loss + CE Loss）
原型空间在训练过程中动态学习更新（非固定）
可同时使用图文配对样本和纯图像样本训练

实验关键数据¶

主实验：不同文本可用性下的语言引导分割对比¶

数据集	模型	50%文本Dice	10%文本Dice	1%文本Dice
QaTa-COV19	LViT	0.842	0.800	0.701
QaTa-COV19	GuideSeg	0.863	0.840	0.733
QaTa-COV19	SGSeg	0.864	0.842	0.731
QaTa-COV19	ProLearn	0.867	0.858	0.857
MosMedData+	SGSeg	0.746	0.695	0.345
MosMedData+	ProLearn	0.754	0.742	0.722
Kvasir-SEG	GuideSeg	0.885	0.775	0.562
Kvasir-SEG	ProLearn	0.898	0.890	0.872

消融/效率对比¶

模型	参数量	推理时间	时间复杂度
ProLearn (PSA)	1M	4ms	$\mathcal{O}(1)$
SGSeg (GPT-2)	1.5B	136ms	$\mathcal{O}(n)$
SGSeg (Llama3)	7B	1.2s	$\mathcal{O}(n)$

关键发现¶

在1%文本可用性下，ProLearn几乎无性能降低（QaTa Dice: 0.867→0.857），而GuideSeg从0.863暴跌至0.733，SGSeg从0.864跌至0.731
ProLearn甚至仅用1%文本就超越了所有使用100%图像数据的单模态方法（U-Net, U-Net++, Swin U-Net等）
比LLM方案参数减少1000倍、速度快100-300倍，适合边缘设备和实时应用
超参数（候选数k、原型数M）在较宽范围内性能稳定

亮点与洞察¶

关键洞察极具启发性：医学报告的语义空间是天然受限的（标准化术语+封闭词汇），因此可以用有限原型离散近似，无需每次重新生成文本
PSA的"查询-响应"机制是一种优雅的跨模态桥接方案：图像查询→选择视觉最近原型→返回对应的文本语义，实现了无文本推理
两级聚类（HDBSCAN按文本语义 + K-means按视觉特征）的设计保证了原型空间既语义清晰又视觉多样
性能退化曲线（图5）直观展示了ProLearn vs 其他方法在文本递减时的鲁棒性差异

局限与展望¶

原型空间的初始化依赖BioMedCLIP的特征质量，对于BioMedCLIP覆盖不佳的医学领域可能效果折扣
代理标签提取需要先训练一个Language-guided U-Net来获取注意力权重，增加了pipeline复杂度
未探索原型空间的在线更新策略（如新数据到来时增量更新）
仅在COVID-19肺部和结肠息肉场景验证，更复杂的多器官/多病变场景有待探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次用原型学习解决语言引导分割的文本依赖问题，洞察深刻
实验充分度: ⭐⭐⭐⭐ 三个数据集五种文本比例+效率对比+超参数分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义精准，motivation链完整，图示清晰
价值: ⭐⭐⭐⭐⭐ 具有重要的临床实用价值，解决了阻碍语言引导分割落地的核心瓶颈