Boosting Medical Visual Understanding From Multi-Granular Language Learning¶
会议: ICLR 2026
arXiv: 2511.15943
代码: https://github.com/HUANGLIZI/MGLL
领域: 医学图像 / 多模态VLM
关键词: 医学图像预训练, 多标签对比学习, 多粒度对齐, CLIP改进, 视觉-语言预训练
一句话总结¶
提出 Multi-Granular Language Learning (MGLL),一个即插即用的对比学习框架,通过 soft CLIP loss、point-wise loss 和 smooth KL 散度联合优化,实现医学图像与多标签多粒度文本描述的对齐,在眼底和 X 光数据集上全面超越 SOTA 方法,并可作为视觉编码器嵌入多模态大语言模型提升诊断准确率最高达 34.1%。
研究背景与动机¶
- 领域现状:CLIP 等对比学习方法在通用视觉领域取得了巨大成功,通过图像-文本对的匹配学习跨模态对齐表征。许多医学视觉基础模型也借鉴 CLIP 进行预训练。
- 现有痛点:标准 CLIP 采用单标签、单粒度的图文配对策略,但医学图像天然具有 多标签 和 多粒度 特性。例如,一张眼底图像可能同时包含"糖尿病黄斑水肿"和"糖尿病视网膜病变"两种疾病(多标签),并且每种疾病还有粗粒度(疾病类别)和细粒度(严重程度、临床描述)的区分(多粒度)。现有多标签对比方法关注实例-标签关联但忽略跨粒度语义。
- 核心矛盾:医学图像编码的信息比自然图像更复杂、更层次化,但数据因隐私和标注成本更稀缺。单粒度单标签监督浪费了丰富的层级标注信息,但直接将多粒度信息混合编码又会让不同语义层级的特征互相干扰。
- 本文要解决什么:如何在一个统一框架中同时实现多标签对齐(一个图像对应多个标签)和跨粒度对齐(不同层级标注的一致性)?
- 切入角度:构建多粒度文本描述数据集,设计三个互补的损失函数分别优化多标签对齐和跨粒度一致性。
- 核心 idea 一句话:用 soft CLIP loss 做多标签软对齐 + point-wise loss 做逐对精细对齐 + smooth KL 散度做跨粒度特征一致性约束,三者联合优化实现医学图像的全面视觉-语言对齐。
方法详解¶
整体框架¶
MGLL 由图像编码器(ViT-L/14)和文本编码器(BiomedicalBERT)组成。输入是医学图像和对应的多粒度文本描述(如疾病类别、临床解释、检查描述等)。MGLL 不引入任何额外的粒度敏感编码器,计算成本零增加,可即插即用到任何视觉-语言模型中。
关键设计¶
- Soft CLIP Loss \(\mathcal{L}_{\text{sCLIP}}\):
- 做什么:将标准 CLIP 的单标签硬匹配扩展为多标签软对齐
- 核心思路:允许图像特征 \(V_i\) 同时与多个文本标签 \(\{T_{i1}, T_{i2}, ..., T_{iM_i}\}\) 对齐。每个图像-文本对的权重 \(w_{ik}\) 由共现矩阵归一化得到:\(w_{ik} = \frac{\text{cooccurrence}(V_i, T_{ik})}{\sum_k \text{cooccurrence}(V_i, T_{ik})}\)。优化目标等价于让图像特征收敛到其关联文本特征的加权中心
-
设计动机:CLIP 强制每张图像只对齐一个标签,在多标签场景下产生偏差表征。soft loss 通过软权重自然处理了一对多的映射关系
-
Point-wise Loss \(\mathcal{L}_P\):
- 做什么:在给定粒度层级下优化图像-文本对的逐点对齐
- 核心思路:使用二元交叉熵作为损失,\(y_{ij} \in \{0, 1\}\) 标记图像 \(V_i\) 与文本 \(T_j\) 是否为有效匹配,通过 sigmoid 激活将相似度归一化为概率:\(\mathcal{L}_P = -\sum_{i,j} \frac{y_{ij} \log \sigma(x_{ij}) + (1-y_{ij}) \log(1-\sigma(x_{ij}))}{N}\)
-
设计动机:soft CLIP loss 关注在正样本中做软分配,point-wise loss 则额外显式压制负样本的相似度(\(y_{ij}=0\) 时最小化 \(\sigma(x_{ij})\)),两者互补增强多标签判别能力
-
Smooth KL 散度 Loss \(\mathcal{L}_{\text{sKL}}\):
- 做什么:确保不同粒度的文本特征对齐到统一的特征空间
- 核心思路:对 \(m\) 个粒度层级的预测分布 \(\{P_1, ..., P_m\}\),计算均值分布 \(M = \frac{1}{m}\sum_i P_i\),然后最小化每个粒度分布到均值分布的 KL 散度:\(\mathcal{L}_{\text{sKL}} = \sum_{i=1}^m D_{\text{KL}}(P_i \| M)\)
- 设计动机:若不加粒度一致性约束,不同粒度的特征会分散在不同子空间,无法实现跨粒度泛化。最小化到均值分布的 KL 散度迫使所有粒度的表征趋于一致(\(P_1 = P_2 = ... = P_m = M\))
损失函数¶
最终损失为三项加权和:\(\mathcal{L}_{\text{MGLL}} = 0.5 \cdot \mathcal{L}_{\text{sCLIP}} + 1.0 \cdot \mathcal{L}_P + 1.0 \cdot \mathcal{L}_{\text{sKL}}\)
大规模多粒度数据集构建¶
- MGLL-Fundus:246,389 对眼底图像-多粒度文本,来源于 49 个公开数据集,覆盖 50+ 种疾病。粒度包括:正常/异常标签、具体疾病类别、临床解释描述。
- MGLL-Xray:190,882 张 X 光图像,来自 MIDRC 数据库。粒度包括:成像方式(CR/DX)、检查描述(Study Description)、序列描述(Series Description)。
实验关键数据¶
主实验¶
在 9 个眼底下游数据集和 3 个 X 光数据集上对比 MGLL 与 CLIP、CheXzero、MRM、UniChest 等 SOTA:
| 方法 | MIDRC-XR AUC (LP/FT) | MIDRC-Portable AUC (LP/FT) | ChestX-ray14 AUC (LP/FT) |
|---|---|---|---|
| CLIP | 54.72 / 88.52 | 71.43 / 91.83 | 69.75 / 82.05 |
| UniChest | 59.02 / 92.51 | 78.49 / 95.44 | 76.15 / 85.84 |
| FG-CLIP | 58.31 / 93.29 | 80.31 / 96.93 | 76.62 / 85.10 |
| MGLL | 61.25 / 99.08 | 83.86 / 99.75 | 82.94 / 87.37 |
MGLL 在所有数据集的 linear probe 和 fine-tune 设置下均取得最佳结果。在多标签数据集 RFMiD 上,MGLL linear probe 超越次优方法 16.6%,fine-tune 超越 6.7%。
嵌入 MLLM 的效果——替换 7 个 MLLM 的视觉编码器:
| MLLM | 原始准确率 | +MGLL 准确率 | 提升 |
|---|---|---|---|
| InstructBLIP | 47.29% | 61.99% | +14.7% |
| LLaVA | 72.73% | 79.98% | +7.3% |
| LLaVA-Med | 24.28% | 58.37% | +34.1% |
| Med-Flamingo | 26.97% | 58.70% | +31.7% |
| InternVL | 77.35% | 81.96% | +4.6% |
| Janus-Pro | 68.92% | 79.80% | +10.9% |
医学专用模型(LLaVA-Med、Med-Flamingo)提升最为显著,通用模型(LLaVA、InternVL)也有明显增益。
消融实验¶
在 RFMiD 数据集上的损失函数消融:
| 配置 | LP AUC | FT AUC | 说明 |
|---|---|---|---|
| CLIP baseline | 44.66 | 65.10 | 单标签单粒度 |
| \(\mathcal{L}_P\) only | 70.34 | 88.25 | point-wise 贡献最大 |
| \(\mathcal{L}_{\text{sCLIP}}\) only | 67.86 | 85.13 | soft CLIP 也有明显提升 |
| \(\mathcal{L}_{\text{sCLIP}} + \mathcal{L}_P\) | 75.73 | 90.31 | 两者互补 |
| 完整 MGLL | 79.62 | 92.83 | +sKL 进一步提升 |
粒度数量消融(MIDRC-XR-Portable):1 粒度 → 2 粒度 → 3 粒度,AUC 呈单调递增(LP: 80.54 → 82.92 → 83.86),验证了保留层次化信息结构的重要性。
关键发现¶
- Point-wise loss 贡献最大(AUC 提升 25.68%),因为它同时优化正负样本对
- Smooth KL 散度作为跨粒度约束提供额外 ~4% AUC 提升
- 编码器选择上 ViT-L/14 优于 ViT-H/14(更大不一定更好,暗示过拟合),BERT 优于 CLIP text encoder 和 LLaMA
- MGLL 在低分辨率甚至有噪声文本条件下依然大幅优于 CLIP,鲁棒性强
亮点与洞察¶
- 即插即用设计:不引入任何额外编码器参数,仅通过损失函数改进就实现了多标签+多粒度对齐,可直接替换任何 VLM 的对比学习目标
- 理论分析优雅:从梯度分析推导出 soft CLIP 让图像特征收敛到文本特征的加权中心(Eq.10),直觉上非常清晰
- 大规模数据集构建有工程价值:MGLL-Fundus(246K对,49 个数据集,50+ 疾病)和 MGLL-Xray(190K 张)填补了医学多粒度预训练数据的空白
- 嵌入 MLLM 的评估范式:用 MGLL 替换 7 个 MLLM 的视觉编码器进行评估,这个实验设计思路可迁移到其他域特定视觉编码器的评估
局限性 / 可改进方向¶
- 粒度定义依赖领域知识:需要人工为每个医学领域设计粒度层级和收集对应文本,通用性受限
- 仅验证了分类任务:缺少分割、检测等下游任务的验证,而这些在医学影像中同样重要
- 数据集偏向眼底和胸部 X 光:对 CT、MRI、病理切片等模态的泛化能力未知
- 粒度间关系建模较粗粒度:smooth KL 简单地拉齐各粒度分布到均值,但没有显式建模粒度间的层级/包含关系(如"疾病类别"是"严重程度"的上位概念)
- 可改进:探索自动从医学报告中提取多粒度标注、将层级关系(树结构)编码到损失函数中
相关工作与启发¶
- vs CLIP: CLIP 做单标签硬匹配,MGLL 做多标签软匹配 + 跨粒度一致性,在医学场景下提升巨大(RFMiD 上 LP AUC: 44.66 → 79.62)
- vs MedCLIP: MedCLIP 通过语义匹配解决假阴性,但仍是单粒度;MGLL 从根本上改变了监督信号的结构
- vs UniChest: UniChest 针对胸部 X 光做领域适配,MGLL 提供更通用的多粒度框架,在 X 光和眼底上都有效
- vs SupCon: 监督对比学习利用标签结构但局限于固定标签空间,MGLL 通过文本编码器实现开放语义
评分¶
- 新颖性: ⭐⭐⭐⭐ 多标签+多粒度对齐的组合是新的,但各个损失函数单独看并不新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 11个下游数据集+7个MLLM+完善的消融,评估非常全面
- 写作质量: ⭐⭐⭐⭐ 理论分析和实验展示清晰,但相关工作部分略 crowded
- 价值: ⭐⭐⭐⭐ 对医学视觉预训练有直接参考价值,数据集和方法均可直接复用