Improving Medical Multi-modal Contrastive Learning with Expert Annotations¶
会议: ECCV 2024
arXiv: 2403.10153
代码: 有(论文提及源码可用)
领域: 医学图像
关键词: 对比学习, 医学影像, 专家标注, 眼动热力图, 模态差距
一句话总结¶
提出 eCLIP,通过整合放射科专家的眼动注视热力图作为额外监督信号,结合 mixup 增强和课程学习策略,在不修改 CLIP 核心架构的前提下增强医学多模态对比学习的表征质量。
研究背景与动机¶
医学领域对比学习面临的核心挑战¶
CLIP 等视觉-语言对比学习模型在通用领域取得了巨大成功,但在医学影像领域面临两大关键挑战:
数据稀缺性:医学数据获取涉及专家知识、伦理审查、患者隐私等复杂流程,难以像自然图像那样获得数百万级的训练数据。即使是 MIMIC-CXR 这样较大的数据集也仅有约 20 万张胸部 X 光。
模态差距(Modality Gap):不同模态(图像和文本)的嵌入在共享空间中落入不同区域,形成"锥体效应"(cone effect)。实验表明,在 Open-I 数据集上,不同异常类别(正常、心脏肥大、肺不张、不透明影)之间的余弦相似度接近 1,这意味着模型难以区分不同的医学异常。
为什么现有方法不够好?¶
- 通用预训练模型:用互联网数据预训练的 CLIP 无法捕捉医学图像中的细微差异
- 简单微调:仅在医学数据上继续预训练,虽有改善但仍受限于有限的正负样本对和高模态内相似度
- 跨模态 Mixup(如 \(m^2\)-mixup):通过混合不同模态的嵌入创建硬负样本,但可能模糊嵌入的语义清晰度
关键洞察¶
放射科医生在阅读 X 光片时的眼动注视数据蕴含了丰富的临床信息——眼动热力图标记了与放射学报告中描述一致的临床兴趣区域。如果能利用这些稀缺但高质量的专家标注来丰富训练数据中的正样本对,就有可能显著提升嵌入质量。
方法详解¶
整体框架¶
eCLIP 在标准 CLIP 的图像编码器和文本编码器基础上,增加了一个 热力图处理器(Heatmap Processor)。整个流程保持 CLIP 核心架构不变,具有通用的即插即用特性。
对于输入样本 \((I_i, T_i, E_i)\)(图像、文本、热力图),eCLIP 生成三种嵌入:
- \(v_i = f(I_i)\):原始图像嵌入
- \(t_i = g(T_i)\):文本嵌入
- \(v_i^E\):经专家热力图处理的图像嵌入
关键设计¶
-
热力图处理器(Heatmap Processor):
- 功能:将专家眼动热力图与原始图像融合,生成强调临床重要区域的增强图像
- 核心思路:将图像和热力图转换为 patch 序列,使用多头注意力(MHA)处理——以热力图覆盖的图像 patch 作为 Query,原始图像 patch 作为 Key 和 Value。输出重建为原始图像格式后送入标准 CLIP 图像编码器
- 设计动机:MHA 可以根据热力图的注意力分布自适应地加权不同区域,比简单的掩码乘法或 CNN 编码更灵活。消融实验证实 MHA 优于 \(\odot\) Mask(直接掩码乘法)和 CNN 编码器
-
Mixup 增强策略:
- 功能:将原始图像 \(I_i\) 和专家处理图像 \(I_i^E\) 混合生成 \(I_i^\lambda = \lambda I_i + (1-\lambda)I_i^E\)
- 核心思路:\(\lambda \sim \text{Beta}(\alpha, \alpha)\),\(\alpha=0.3\)。混合后的图像经编码器得到 \(v_i^\lambda = f(I_i^\lambda)\),形成新的正样本对 \((v_i^\lambda, t_i)\) 以及对应的负样本对
- 设计动机:专家标注数据极度稀缺(仅约 1080 个样本),通过 mixup 可以用一份专家数据生成无限多样化的训练样本,有效扩充高质量正样本对数。与 \(m^2\)-mixup 的跨模态混合不同,eCLIP 在同一图像的原始版本和专家版本之间 mixup,保持了语义一致性
-
课程学习(Curriculum Learning)策略:
- 功能:分三个阶段逐步引入专家标注
- 核心思路:
- 冷启动阶段(前 10% 迭代):不引入专家标注,建立稳健的基准
- 预热阶段(10%~40% 迭代):专家样本引入概率从 0.05 渐增至 0.5
- 冷却阶段(40%~80% 迭代):概率降至 0.1,平衡基础训练与专家驱动学习
- 设计动机:直接将稀缺的专家样本混入训练会导致不稳定(消融实验中"naive"基线的方差明显更大),渐进引入可以让模型先建立稳定的表征基础
损失函数 / 训练策略¶
主损失:增强版 InfoNCE 损失,在标准 CLIP 损失的正负样本对基础上加入专家嵌入产生的额外正负样本对:
辅助损失(Priming Loss):在冷启动阶段训练热力图处理器模仿恒等函数:
总损失:\(\mathcal{L} = w_p \cdot \mathcal{L}_{\text{priming}} + (1 - w_p) \cdot \mathcal{L}_{\text{clip}}\),其中 \(w_p = 0.1\)。
Priming 的动机:确保热力图处理器在无专家标注时退化为恒等映射,这样不会损害原始模型性能,仅在有标注时才提供增益。
实验关键数据¶
主实验:零样本分类¶
| 模型 | CheXpert 5×200 | MIMIC 5×200 | RSNA | CXR 14×100 |
|---|---|---|---|---|
| CLIP (Swin Tiny) | 0.517 | 0.452 | 0.808 | 0.169 |
| + naive | 0.532 | 0.452 | 0.807 | 0.167 |
| + DACL | 0.465 | 0.389 | 0.768 | 0.101 |
| + \(m^3\)-mix | 0.554 | 0.469 | 0.802 | 0.179 |
| + eCLIP (ours) | 0.549 | 0.445 | 0.818 | 0.172 |
| + eCLIP\(^P\) (ours) | 0.558 | 0.463 | 0.819 | 0.192 |
| CLIP (ViT Base) | 0.540 | 0.465 | 0.805 | 0.183 |
| + eCLIP (ours) | 0.563 | 0.477 | 0.814 | 0.193 |
eCLIP 在 ViT Base 上取得全面最优,在 Swin Tiny 上 eCLIP\(^P\)(后训练版本)也全面领先。
消融实验¶
| 配置 | CheXpert F1 | CXR14 F1 | 说明 |
|---|---|---|---|
| Base CLIP | 0.517 | 0.169 | 基线 |
| \(\odot\) Mask (+E) | 0.540 | 0.165 | 简单掩码乘法 |
| CNN Encoder (+E) | 0.534 | 0.163 | CNN 编码热力图 |
| MHA Encoder (+E) | 0.534 | 0.153 | 仅 MHA,无其他技巧 |
| MHA (+E,M) | 0.532 | 0.160 | 加 Mixup |
| MHA (+E,M,C) | 0.545 | 0.173 | 加课程学习,显著提升 |
| MHA (+rand,M,C,P) | 0.537 | 0.166 | 随机热力图,性能下降 |
| MHA (+E,M,C,P) | 0.549 | 0.172 | 完整 eCLIP |
课程学习 (+C) 带来了最大的提升;随机热力图 vs 专家热力图的对比证实了专家标注的关键价值。
关键发现¶
- 跨模态检索(Open-I):eCLIP (ViT Base) 的 R@1/R@5/R@10 = 4.4/10.3/13.5,优于 CLIP 的 3.7/9.2/13.2
- RAG 报告生成:eCLIP 的 BLEU-2 = 0.177(vs CLIP 0.172),CheXBERT 嵌入相似度 0.506(vs 0.492),说明检索到的文本更高质量
- 嵌入质量:eCLIP 的 uniformity 和 alignment 指标均优于基线,模态差距有所缩小
- 样本效率:在训练数据受限时,eCLIP 一致优于 CLIP,证实了专家标注对数据效率的促进作用
亮点与洞察¶
- 即插即用设计:eCLIP 不修改 CLIP 核心架构,可应用于任何 CLIP 变体(Swin Tiny、ViT Small、ViT Base、GLoRIA),实用性极强
- 稀缺标注的高效利用:仅 1080 个眼动标注样本就能显著提升 ~20 万训练样本的模型质量,展示了高质量而非高数量数据的价值
- Priming 机制:确保无专家标注时模型不退化的设计思路值得借鉴
- 从 retrieval 到 RAG:将嵌入质量改善传播到冻结 LLM 的报告生成任务中,展示了嵌入质量的实际下游价值
局限与展望¶
- 专家标注数据量太少(1080 个),未系统研究标注数量和分布对性能的影响
- 训练时专家图像的额外前向传播增加了计算开销
- RAG 生成的放射学报告未经医学专家验证
- 仅利用了图像端的专家标注,未扩展到文本端(如 SimCSE 方向)
- 未利用眼动数据的时序信息(注视序列与报告片段的对齐)
相关工作与启发¶
- 与 GLoRIA 的对比:GLoRIA 利用局部和全局特征但不引入外部专家信号,eCLIP 证明了高质量外部标注的额外价值
- 与 Alpha-CLIP 的差异:Alpha-CLIP 用分割模型生成 alpha 通道引导注意力,eCLIP 使用真实专家注视数据,语义更准确
- 启发方向:将专家标注思路扩展到其他需要领域知识的医学任务(病理切片、超声等)
评分¶
- 新颖性: ⭐⭐⭐⭐ 将放射科专家眼动数据引入 CLIP 学习的思路新颖且有意义
- 实验充分度: ⭐⭐⭐⭐ 涵盖零样本、线性探测、检索、RAG 等多个任务,消融设计完善
- 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观,实验分析系统
- 价值: ⭐⭐⭐⭐ 对医学多模态学习中利用稀缺专家标注提供了实用方案
相关论文¶
- [ECCV 2024] Unsupervised Multi-modal Medical Image Registration via Invertible Translation
- [ECCV 2024] GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation
- [ECCV 2024] TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data
- [ECCV 2024] Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification
- [ECCV 2024] Energy-induced Explicit Quantification for Multi-modality MRI Fusion