Improving Medical Multi-modal Contrastive Learning with Expert Annotations¶

会议: ECCV 2024
arXiv: 2403.10153
代码: 有（开源）
领域: 多模态VLM
关键词: 医学影像, 对比学习, CLIP, 专家标注, 眼动热力图

一句话总结¶

提出eCLIP，通过引入放射科医生的眼动热力图（eye-gaze heatmap）作为专家标注，利用热力图处理器和mixup增强策略扩充高质量正样本对，有效缓解医学CLIP中的"模态间隙"问题，在零样本推理、线性探测、跨模态检索和RAG报告生成等任务上取得一致性提升。

领域现状：CLIP等对比学习模型在通用领域表现出色，但在医学影像领域面临两大核心挑战：(1) 数据稀缺（获取一张X光片需要专业流程和隐私处理）；(2) "模态间隙"（modality gap）——图像和文本嵌入落在共享空间的不同区域。
现有痛点：(1) 医学图像之间的差异极其细微（不同病理的X光片相似度接近1.0），通用预训练的CLIP无法捕捉这些细微语义差异；(2) 通用CLIP直接用于医学影像的zero-shot分类效果差；(3) modality gap导致跨模态检索和生成任务受限。
关键洞察：放射科医生的眼动数据天然标注了X光片中的临床关注区域，这些区域与报告内容高度相关，可以作为高质量的注意力引导信号来增强训练数据。
核心idea：用少量（约1000张）眼动标注数据，通过热力图处理器+mixup增强+课程学习策略，在不修改CLIP核心架构的前提下提升嵌入质量。

eCLIP在标准CLIP架构上添加一个热力图处理器（Heatmap Processor），利用多头注意力（MHA）将眼动热力图加权后的图像与原始图像融合。通过mixup策略扩充稀缺的专家标注数据，课程学习控制专家标注的引入节奏，priming阶段让热力图处理器在无热力图时退化为恒等映射。

热力图处理器（Heatmap Processor）：
- 做什么：将放射科医生的眼动热力图信息融入图像编码
- 核心思路：将图像和热力图切成patch后，用MHA（热力图加权图像作query，原始图像作key/value）处理，输出重建为图像格式后送入标准CLIP图像编码器
- 设计动机：眼动热力图标出了临床关键区域，据此加权的图像特征可以更对齐文本报告内容
- 不修改CLIP核心架构，可适用于任何CLIP变体
Mixup增强策略：
- 做什么：解决专家标注数据稀缺问题（仅约1000张有眼动数据）
- 核心思路：I_λ = λ·I_orig + (1-λ)·I_E，λ ~ Beta(0.3, 0.3)，在原始图像和专家热力图处理后图像之间插值
- 产生的嵌入v_λ与对应文本t构成额外的正样本对，扩充InfoNCE loss的正负样本池
- 设计动机：直接加入少量专家数据（naive baseline）反而损害性能，mixup可以平滑地引入专家知识
课程学习策略：
- 冷启动阶段（前10%迭代）：不使用专家标注，建立基础模型
- 热身阶段（10%-40%）：逐步提升专家样本概率（0.05→0.5）
- 冷却阶段（40%-80%）：降低概率至0.1
- Priming阶段：辅助MSE loss强制热力图处理器在全1热力图时输出与输入相同的图像（退化为恒等函数）

模型-编码器	CheXpert	MIMIC	RSNA	CXR 14x100
CLIP_SwinTiny	0.517	0.452	0.808	0.169
+naive	0.532	0.452	0.807	0.167
+DACL	0.465	0.389	0.768	0.101
+m³-mix	0.554	0.469	0.802	0.179
+eCLIP(ours)	0.549	0.445	0.818	0.172
+eCLIP^P(ours)	0.558	0.463	0.819	0.192