跳转至

Improving Medical Multi-modal Contrastive Learning with Expert Annotations

会议: ECCV 2024
arXiv: 2403.10153
代码: 有(开源)
领域: 多模态VLM
关键词: 医学影像, 对比学习, CLIP, 专家标注, 眼动热力图

一句话总结

提出eCLIP,通过引入放射科医生的眼动热力图(eye-gaze heatmap)作为专家标注,利用热力图处理器和mixup增强策略扩充高质量正样本对,有效缓解医学CLIP中的"模态间隙"问题,在零样本推理、线性探测、跨模态检索和RAG报告生成等任务上取得一致性提升。

研究背景与动机

  1. 领域现状:CLIP等对比学习模型在通用领域表现出色,但在医学影像领域面临两大核心挑战:(1) 数据稀缺(获取一张X光片需要专业流程和隐私处理);(2) "模态间隙"(modality gap)——图像和文本嵌入落在共享空间的不同区域。
  2. 现有痛点:(1) 医学图像之间的差异极其细微(不同病理的X光片相似度接近1.0),通用预训练的CLIP无法捕捉这些细微语义差异;(2) 通用CLIP直接用于医学影像的zero-shot分类效果差;(3) modality gap导致跨模态检索和生成任务受限。
  3. 关键洞察:放射科医生的眼动数据天然标注了X光片中的临床关注区域,这些区域与报告内容高度相关,可以作为高质量的注意力引导信号来增强训练数据。
  4. 核心idea:用少量(约1000张)眼动标注数据,通过热力图处理器+mixup增强+课程学习策略,在不修改CLIP核心架构的前提下提升嵌入质量。

方法详解

整体框架

eCLIP在标准CLIP架构上添加一个热力图处理器(Heatmap Processor),利用多头注意力(MHA)将眼动热力图加权后的图像与原始图像融合。通过mixup策略扩充稀缺的专家标注数据,课程学习控制专家标注的引入节奏,priming阶段让热力图处理器在无热力图时退化为恒等映射。

关键设计

  1. 热力图处理器(Heatmap Processor)

    • 做什么:将放射科医生的眼动热力图信息融入图像编码
    • 核心思路:将图像和热力图切成patch后,用MHA(热力图加权图像作query,原始图像作key/value)处理,输出重建为图像格式后送入标准CLIP图像编码器
    • 设计动机:眼动热力图标出了临床关键区域,据此加权的图像特征可以更对齐文本报告内容
    • 不修改CLIP核心架构,可适用于任何CLIP变体
  2. Mixup增强策略

    • 做什么:解决专家标注数据稀缺问题(仅约1000张有眼动数据)
    • 核心思路:I_λ = λ·I_orig + (1-λ)·I_E,λ ~ Beta(0.3, 0.3),在原始图像和专家热力图处理后图像之间插值
    • 产生的嵌入v_λ与对应文本t构成额外的正样本对,扩充InfoNCE loss的正负样本池
    • 设计动机:直接加入少量专家数据(naive baseline)反而损害性能,mixup可以平滑地引入专家知识
  3. 课程学习策略

    • 冷启动阶段(前10%迭代):不使用专家标注,建立基础模型
    • 热身阶段(10%-40%):逐步提升专家样本概率(0.05→0.5)
    • 冷却阶段(40%-80%):降低概率至0.1
    • Priming阶段:辅助MSE loss强制热力图处理器在全1热力图时输出与输入相同的图像(退化为恒等函数)

损失函数 / 训练策略

  • 标准CLIP loss:InfoNCE对比损失,包含原始(v_i,t_i)正样本对和专家增强的(v_λ,t_i)正样本对
  • Priming loss:L_total = w_p·L_priming + (1-w_p)·L_clip,w_p=0.1
  • 训练配置:8 AMD MI250X GPU,有效batch size 512,10000步,学习率2e-4(eCLIP)+ cosine退火

实验关键数据

主实验

模型-编码器 CheXpert MIMIC RSNA CXR 14x100
CLIP_SwinTiny 0.517 0.452 0.808 0.169
+naive 0.532 0.452 0.807 0.167
+DACL 0.465 0.389 0.768 0.101
+m³-mix 0.554 0.469 0.802 0.179
+eCLIP(ours) 0.549 0.445 0.818 0.172
+eCLIP^P(ours) 0.558 0.463 0.819 0.192

消融实验

组件 效果说明
直接加入专家数据(naive) 部分数据集下降(破坏训练平衡)
无课程学习 性能不稳定
无mixup 专家数据利用不充分
无priming 热力图处理器初始化不稳定
eCLIP vs eCLIP^P 后训练微调方式更灵活

关键发现

  1. eCLIP^P(后训练微调变体)在多数数据集上表现最好,说明在已训练好的CLIP基础上微调引入专家知识更有效
  2. 仅约1000张眼动标注数据就能带来显著一致性提升,证明了高质量少量数据的杠杆效应
  3. naive直接加入专家数据反而某些情况下性能下降——数据量不平衡会破坏训练
  4. alignment和uniformity指标均得到改善,证明eCLIP有效缓解了modality gap
  5. 利用eCLIP嵌入做RAG生成放射学报告的质量也有提升

亮点与洞察

  1. 高质量稀缺资源的杠杆利用:约1000张眼动数据就能系统性改善拥有20万张图像训练数据的CLIP
  2. 不修改核心架构:热力图处理器是即插即用的模块,适用于任何CLIP变体
  3. 医学领域的独特资源:放射科医生的眼动数据是天然的注意力标注,将其引入训练是巧妙的跨领域借鉴
  4. priming设计:让热力图处理器在无标注时退化为恒等函数,保证了鲁棒性

局限性 / 可改进方向

  1. 眼动数据采集成本高,仅EGD-CXR的1080个样本,更大规模的眼动数据可能带来更大提升
  2. 仅在胸部X光上验证,未扩展到CT、MRI等其他医学影像模态
  3. 热力图处理器的MHA结构相对简单,可探索更复杂的融合方式
  4. 课程学习的超参数(阶段比例、概率)基于经验设定,缺少系统调优

相关工作与启发

  • GLoRIA:利用局部-全局特征对齐的医学CLIP,本文方法可与之结合
  • m²-mixup:跨模态embedding混合创造负样本,本文改为在图像空间mixup创造正样本
  • Alpha-CLIP:通过alpha通道引导CLIP关注不同区域,本文用眼动热力图实现类似效果但在医学领域
  • 启发:其他领域是否有类似的"专家注意力"数据可以用来增强多模态学习?

评分

  • 新颖性:⭐⭐⭐⭐ (眼动→对比学习正样本的思路巧妙)
  • 技术深度:⭐⭐⭐⭐ (mixup+课程学习+priming设计完整)
  • 实验充分性:⭐⭐⭐⭐ (多数据集、多编码器、多任务)
  • 实用价值:⭐⭐⭐⭐ (医学影像分析实际需求大)
  • 写作质量:⭐⭐⭐⭐ (清晰,理论分析到位)

相关论文