Improving Medical Multi-modal Contrastive Learning with Expert Annotations¶
会议: ECCV 2024
arXiv: 2403.10153
代码: 有(开源)
领域: 多模态VLM
关键词: 医学影像, 对比学习, CLIP, 专家标注, 眼动热力图
一句话总结¶
提出eCLIP,通过引入放射科医生的眼动热力图(eye-gaze heatmap)作为专家标注,利用热力图处理器和mixup增强策略扩充高质量正样本对,有效缓解医学CLIP中的"模态间隙"问题,在零样本推理、线性探测、跨模态检索和RAG报告生成等任务上取得一致性提升。
研究背景与动机¶
- 领域现状:CLIP等对比学习模型在通用领域表现出色,但在医学影像领域面临两大核心挑战:(1) 数据稀缺(获取一张X光片需要专业流程和隐私处理);(2) "模态间隙"(modality gap)——图像和文本嵌入落在共享空间的不同区域。
- 现有痛点:(1) 医学图像之间的差异极其细微(不同病理的X光片相似度接近1.0),通用预训练的CLIP无法捕捉这些细微语义差异;(2) 通用CLIP直接用于医学影像的zero-shot分类效果差;(3) modality gap导致跨模态检索和生成任务受限。
- 关键洞察:放射科医生的眼动数据天然标注了X光片中的临床关注区域,这些区域与报告内容高度相关,可以作为高质量的注意力引导信号来增强训练数据。
- 核心idea:用少量(约1000张)眼动标注数据,通过热力图处理器+mixup增强+课程学习策略,在不修改CLIP核心架构的前提下提升嵌入质量。
方法详解¶
整体框架¶
eCLIP在标准CLIP架构上添加一个热力图处理器(Heatmap Processor),利用多头注意力(MHA)将眼动热力图加权后的图像与原始图像融合。通过mixup策略扩充稀缺的专家标注数据,课程学习控制专家标注的引入节奏,priming阶段让热力图处理器在无热力图时退化为恒等映射。
关键设计¶
-
热力图处理器(Heatmap Processor):
- 做什么:将放射科医生的眼动热力图信息融入图像编码
- 核心思路:将图像和热力图切成patch后,用MHA(热力图加权图像作query,原始图像作key/value)处理,输出重建为图像格式后送入标准CLIP图像编码器
- 设计动机:眼动热力图标出了临床关键区域,据此加权的图像特征可以更对齐文本报告内容
- 不修改CLIP核心架构,可适用于任何CLIP变体
-
Mixup增强策略:
- 做什么:解决专家标注数据稀缺问题(仅约1000张有眼动数据)
- 核心思路:I_λ = λ·I_orig + (1-λ)·I_E,λ ~ Beta(0.3, 0.3),在原始图像和专家热力图处理后图像之间插值
- 产生的嵌入v_λ与对应文本t构成额外的正样本对,扩充InfoNCE loss的正负样本池
- 设计动机:直接加入少量专家数据(naive baseline)反而损害性能,mixup可以平滑地引入专家知识
-
课程学习策略:
- 冷启动阶段(前10%迭代):不使用专家标注,建立基础模型
- 热身阶段(10%-40%):逐步提升专家样本概率(0.05→0.5)
- 冷却阶段(40%-80%):降低概率至0.1
- Priming阶段:辅助MSE loss强制热力图处理器在全1热力图时输出与输入相同的图像(退化为恒等函数)
损失函数 / 训练策略¶
- 标准CLIP loss:InfoNCE对比损失,包含原始(v_i,t_i)正样本对和专家增强的(v_λ,t_i)正样本对
- Priming loss:L_total = w_p·L_priming + (1-w_p)·L_clip,w_p=0.1
- 训练配置:8 AMD MI250X GPU,有效batch size 512,10000步,学习率2e-4(eCLIP)+ cosine退火
实验关键数据¶
主实验¶
| 模型-编码器 | CheXpert | MIMIC | RSNA | CXR 14x100 |
|---|---|---|---|---|
| CLIP_SwinTiny | 0.517 | 0.452 | 0.808 | 0.169 |
| +naive | 0.532 | 0.452 | 0.807 | 0.167 |
| +DACL | 0.465 | 0.389 | 0.768 | 0.101 |
| +m³-mix | 0.554 | 0.469 | 0.802 | 0.179 |
| +eCLIP(ours) | 0.549 | 0.445 | 0.818 | 0.172 |
| +eCLIP^P(ours) | 0.558 | 0.463 | 0.819 | 0.192 |
消融实验¶
| 组件 | 效果说明 |
|---|---|
| 直接加入专家数据(naive) | 部分数据集下降(破坏训练平衡) |
| 无课程学习 | 性能不稳定 |
| 无mixup | 专家数据利用不充分 |
| 无priming | 热力图处理器初始化不稳定 |
| eCLIP vs eCLIP^P | 后训练微调方式更灵活 |
关键发现¶
- eCLIP^P(后训练微调变体)在多数数据集上表现最好,说明在已训练好的CLIP基础上微调引入专家知识更有效
- 仅约1000张眼动标注数据就能带来显著一致性提升,证明了高质量少量数据的杠杆效应
- naive直接加入专家数据反而某些情况下性能下降——数据量不平衡会破坏训练
- alignment和uniformity指标均得到改善,证明eCLIP有效缓解了modality gap
- 利用eCLIP嵌入做RAG生成放射学报告的质量也有提升
亮点与洞察¶
- 高质量稀缺资源的杠杆利用:约1000张眼动数据就能系统性改善拥有20万张图像训练数据的CLIP
- 不修改核心架构:热力图处理器是即插即用的模块,适用于任何CLIP变体
- 医学领域的独特资源:放射科医生的眼动数据是天然的注意力标注,将其引入训练是巧妙的跨领域借鉴
- priming设计:让热力图处理器在无标注时退化为恒等函数,保证了鲁棒性
局限性 / 可改进方向¶
- 眼动数据采集成本高,仅EGD-CXR的1080个样本,更大规模的眼动数据可能带来更大提升
- 仅在胸部X光上验证,未扩展到CT、MRI等其他医学影像模态
- 热力图处理器的MHA结构相对简单,可探索更复杂的融合方式
- 课程学习的超参数(阶段比例、概率)基于经验设定,缺少系统调优
相关工作与启发¶
- GLoRIA:利用局部-全局特征对齐的医学CLIP,本文方法可与之结合
- m²-mixup:跨模态embedding混合创造负样本,本文改为在图像空间mixup创造正样本
- Alpha-CLIP:通过alpha通道引导CLIP关注不同区域,本文用眼动热力图实现类似效果但在医学领域
- 启发:其他领域是否有类似的"专家注意力"数据可以用来增强多模态学习?
评分¶
- 新颖性:⭐⭐⭐⭐ (眼动→对比学习正样本的思路巧妙)
- 技术深度:⭐⭐⭐⭐ (mixup+课程学习+priming设计完整)
- 实验充分性:⭐⭐⭐⭐ (多数据集、多编码器、多任务)
- 实用价值:⭐⭐⭐⭐ (医学影像分析实际需求大)
- 写作质量:⭐⭐⭐⭐ (清晰,理论分析到位)
相关论文¶
- [ECCV 2024] Unsupervised Multi-modal Medical Image Registration via Invertible Translation
- [ECCV 2024] Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification
- [ECCV 2024] GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation
- [ECCV 2024] TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data
- [ECCV 2024] Energy-induced Explicit Quantification for Multi-modality MRI Fusion