跳转至

EI: Early Intervention for Multimodal Imaging based Disease Recognition

会议: CVPR 2026
arXiv: 2603.17514
代码: github.com/ruc-aimc-lab/EI
领域: 医学图像 / 多模态融合
关键词: 多模态医学图像, 早期干预, LoRA, MoE, VFM适配, 疾病识别

一句话总结

EI 提出在单模态嵌入(UIE)之前就注入跨模态语义引导([INT] token),模拟临床医生"先看一个模态形成初步判断再指导另一个模态检查"的工作流程,同时设计 MoR(多种秩 LoRA + 带旁路的松弛路由器)实现参数高效的 VFM 医学域适配,在视网膜/皮肤/膝关节三个数据集上以 <9M 可训练参数超越所有全参微调和 prompt learning 基线。

研究背景与动机

  1. 领域现状:多模态医学图像(如 CFP+OCT 眼底、皮肤镜+临床照片、多视角 MRI)的疾病识别是 CV 重要任务。现有方法(MM-MIL、CosCatNet、RadDiag、MMRAD)都遵循"fusion after UIE"范式——先用各自编码器独立提取单模态特征,再通过拼接/加权求和/注意力做后期融合。

  2. 痛点一——融合太晚:所有方法在单模态嵌入(UIE)阶段对其他模态"一无所知",导致 UIE 无法利用互补信息。这与临床实践不符——医生从不孤立解读某一模态,而是先从一个模态形成初步假设,再用该假设引导另一模态的检查。

  3. 痛点二——VFM 适配难:医学标注数据稀缺 + 自然图像与医学图像存在巨大域偏移。CLIP/DINOv2 等 VFM 直接用效果差,全参微调会过拟合,prompt learning 只能激活预有知识、无法注入新知识。

  4. 核心思路:(a) 将参考模态的高层语义([CLS] token)作为干预 token [INT],在目标模态 UIE 的最早期注入;(b) 设计 MoR——多种秩 LoRA + 带 bypass 的松弛路由器,兼顾适配能力与参数效率。

方法详解

整体框架

输入:M 个模态的医学图像样本 → 每个模态轮流作为 target,其余作为 reference → 辅助 VFM 提取 reference 的 [CLS] token → Adapter 转换为 [INT] token → 拼入 target 模态的 patch embedding 序列最前端 → 主 VFM 完成 UIE([INT] 在所有 Transformer 层与 target 的 patch token 交互)→ 各模态得到 [INT]-intervened 的 CLS feature → 自适应门控加权融合 → 分类预测。

关键设计

  1. [INT] Token 生成:
  2. 做什么:从参考模态提取高层语义 token 作为跨模态干预信号
  3. 核心思路:对每个参考模态 \(r\),用辅助 VFM \(\phi_{a,r}\) 提取最后一层 [CLS] token \(Z^L[0]\),收集所有参考模态的 [CLS] token 后通过两层 MLP Adapter 转换为 [INT] 序列。选择最后一层是因为它包含最丰富的高层语义信息
  4. 设计动机:模拟临床医生的工作流——先从一种检查(如 OCT 断层扫描)形成初步诊断假设,再用该假设引导另一种检查(如 CFP 彩色眼底照)的解读。辅助 VFM 只负责生成 [INT],计算量可控

  5. 早期干预的主特征提取:

  6. 做什么:将 [INT] token 拼接到 target 模态 patch embedding 序列的最前端,让其从第 0 层就参与 self-attention
  7. 核心思路:\(\hat{Z}_t^0 = \text{Concat}(\text{Conv}(\mathbf{x}[t]),\ \text{INT})\),然后正常前向传播得到 \(\hat{\text{CLS}}_t = \phi_{p,t}(\hat{Z}_t^0, L)[0]\)
  8. 关键实验发现:消融实验明确表明越早注入效果越好——Layer 0 注入始终最优(CLIP 0.824, DINOv2 0.841),Layer 11 注入性能下降到 0.815。这验证了"早期干预"原则的正确性
  9. 可视化证据:Fig. 2 展示加入 [INT] 后,patch-level 注意力图从发散变为聚焦于病灶区域(如 OCT 中的 drusen、CFP 中的出血点),说明跨模态引导确实让 UIE 更有针对性

  10. MoR(Mixture of Low-varied-Ranks Adaptation):

  11. 做什么:参数高效微调 VFM 的每个线性层
  12. 核心思路:同时维护 3 个不同 rank(2, 4, 8)的 LoRA adapter,plus 一个松弛路由器(linear + softmax)生成 4 维权重 \([w_0, w_1, w_2, w_3]\),其中 \(w_0\)bypass 权重。输出为 \(h' = Wh + \sum_{k=1}^{3} w_k B_k A_k h\)
  13. vs LoRA:单一固定 rank 无法适应不同模态和不同样本的复杂度差异
  14. vs LoRAMoE:标准 MoE 路由器的权重和为 1,强制接受适配结果;MoR 的 bypass 机制允许模型在原始权重已经足够好时跳过适配(极端情况 \(w_0 = 1\) 时完全跳过所有 LoRA)

  15. 自适应后期融合:

  16. 每个模态的 \(\hat{\text{CLS}}_t\) 经线性层投影为 \(C\) 维预测 \(\hat{y}_t\)
  17. 门控层(linear + softmax)生成模态重要性权重 \(\{\alpha_1, \ldots, \alpha_M\}\)
  18. 最终预测 \(\hat{y} = \sum_{t=1}^{M} \alpha_t \hat{y}_t\)

损失函数

总损失 \(\mathcal{L} = \mathcal{L}_p + \lambda_1 \mathcal{L}_{aa} + \lambda_2 \mathcal{L}_{ag}\),包含三部分:

  • 主损失 \(\mathcal{L}_p\):各模态预测和融合预测的交叉熵之和
  • 辅助 VFM 监督 \(\mathcal{L}_{aa}\)\(\lambda_1=0.3\)):保证辅助 VFM 生成的 [INT] 具有任务相关性
  • 门控监督 \(\mathcal{L}_{ag}\)\(\lambda_2=0.1\)):用训练集表现最好模态的 one-hot 先验指导门控权重学习,解决 VFM 框架易过拟合导致各模态训练阶段表现趋同、门控无法区分真实强弱的问题

实验关键数据

主实验

数据集 指标(mAP) EI (DINOv2) 最佳基线 提升
MMC-AMD(视网膜4分类) mAP 0.909 MMRAD 0.821 +10.7%
Derm7pt(皮肤5分类) mAP 0.767 MMRAD 0.566 +35.5%
MRNet(膝关节3分类) mAP 0.848 MM-MIL 0.835 +1.6%
三数据集均值 MEAN 0.841 MMRAD 0.735 +14.4%
  • EI 可训练参数仅 8.9M,而全参微调基线动辄 200-400M
  • 域偏移最大的 Derm7pt 上提升最显著,mAP 从 0.566 直接拉到 0.767
  • 通用 VFM(CLIP/DINOv2)全面优于领域专用 VFM(RETFound/PanDerm/RadioDINO),说明 EI+MoR 的适配策略优于从头训练领域模型

消融实验

配置 MEAN mAP 说明
EI + MoR(完整模型) 0.833 最优
融合方式改为 after UIE 0.806 退化为传统late fusion
[INT] 注入 Layer 11 而非 Layer 0 0.815 越晚注入越差
去掉 \(\mathcal{L}_{aa}\) 0.820 辅助VFM监督有用
去掉 \(\mathcal{L}_{ag}\) 0.811 门控监督贡献更大
MoR → LoRA 约降 2-3% 固定rank不够灵活
MoR 去掉 bypass 略降 bypass 允许跳过不必要适配

关键发现

  • 早期干预是核心贡献:将 EI 退化为传统 after-UIE 融合后性能显著下降,证明"融合太晚"确实是瓶颈
  • Layer 0 注入最优:[INT] 注入位置越早性能越好,符合"尽早引入跨模态信息"的设计理念
  • MoR > LoRAMoE > LoRA > prompt learning > 全参微调:在数据稀缺的医学场景中,PEFT 方法的设计质量至关重要
  • 通用 VFM 优于领域 VFM:VFM 的预训练数据规模和特征多样性比领域匹配更重要

亮点与洞察

  • Early Intervention 的临床对齐:将"先看一种检查结果形成假设再引导后续检查"这一临床工作流程翻译为 [INT] token 的注入,概念简洁且直觉强。可视化证据(注意力图从发散变为聚焦病灶)非常有说服力
  • MoR 的 bypass 设计:一个极简的改进——把路由器输出维度从 3 扩到 4,就能让模型自适应决定是否需要 LoRA 适配。这个 trick 适用于任何 MoE-LoRA 框架
  • Adapter 做桥梁:辅助 VFM 和主 VFM 是不同的(前者冻结参数少,后者需要精细适配),用两层 MLP 做 [INT] 的兼容性转换,避免了特征空间不对齐的问题

局限性 / 可改进方向

  • 辅助 VFM 额外开销:每个参考模态需要一个辅助 VFM 前向传播,M 个模态需要 2M 个 VFM(M 个辅助 + M 个主),计算量约为单模态的 2 倍
  • 仅验证了 M=2,3 的场景:当模态数量更多(如 5 种以上医学影像)时,[INT] 序列长度线性增长,self-attention 的复杂度可能成为瓶颈
  • 数据集规模偏小:最大 Derm7pt 仅 1011 样本,MMC-AMD 只有 768 样本,结论在大规模数据集上是否成立待验
  • [INT] 只用最后层 [CLS]:局限于高层语义信息,低层纹理/边缘信息被丢弃,对需要低层特征互补的任务可能不够

相关工作与启发

  • vs MMRAD:同样用 VFM+PEFT,MMRAD 用 prompt learning 且在 UIE 之后才融合;EI 在 UIE 之前融合 + 用 MoR 替代 prompt learning,两个维度都有改进
  • vs MM-MIL:MM-MIL 用 ResNet 全参微调 + weighted sum 晚期融合;用 MoR 替换其backbone后(MM-MIL-MoR)性能从 0.733 升到 0.823,但仍不及完整 EI(0.841),说明早期干预的贡献独立于 PEFT 选择
  • 可迁移思路:[INT] token 注入机制可以迁移到任何多模态 ViT 框架(如视频+音频、RGB+深度),核心是用一个模态的高层语义在另一个模态的 embedding 阶段做引导

评分

  • 新颖性: ⭐⭐⭐⭐ 早期干预的思路直觉强且有临床对齐,MoR 是 LoRA-MoE 的合理改进
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、两个VFM、详尽的消融和超参分析,实验非常扎实
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机推导流畅,临床对比生动
  • 价值: ⭐⭐⭐⭐ 对多模态医学图像领域贡献显著,MoR 和 early intervention 的思路可迁移