EI: Early Intervention for Multimodal Imaging based Disease Recognition¶
会议: CVPR 2026
arXiv: 2603.17514
代码: github.com/ruc-aimc-lab/EI
领域: 医学图像 / 多模态融合
关键词: 多模态医学图像, 早期干预, LoRA, MoE, VFM适配, 疾病识别
一句话总结¶
EI 提出在单模态嵌入(UIE)之前就注入跨模态语义引导([INT] token),模拟临床医生"先看一个模态形成初步判断再指导另一个模态检查"的工作流程,同时设计 MoR(多种秩 LoRA + 带旁路的松弛路由器)实现参数高效的 VFM 医学域适配,在视网膜/皮肤/膝关节三个数据集上以 <9M 可训练参数超越所有全参微调和 prompt learning 基线。
研究背景与动机¶
-
领域现状:多模态医学图像(如 CFP+OCT 眼底、皮肤镜+临床照片、多视角 MRI)的疾病识别是 CV 重要任务。现有方法(MM-MIL、CosCatNet、RadDiag、MMRAD)都遵循"fusion after UIE"范式——先用各自编码器独立提取单模态特征,再通过拼接/加权求和/注意力做后期融合。
-
痛点一——融合太晚:所有方法在单模态嵌入(UIE)阶段对其他模态"一无所知",导致 UIE 无法利用互补信息。这与临床实践不符——医生从不孤立解读某一模态,而是先从一个模态形成初步假设,再用该假设引导另一模态的检查。
-
痛点二——VFM 适配难:医学标注数据稀缺 + 自然图像与医学图像存在巨大域偏移。CLIP/DINOv2 等 VFM 直接用效果差,全参微调会过拟合,prompt learning 只能激活预有知识、无法注入新知识。
-
核心思路:(a) 将参考模态的高层语义([CLS] token)作为干预 token [INT],在目标模态 UIE 的最早期注入;(b) 设计 MoR——多种秩 LoRA + 带 bypass 的松弛路由器,兼顾适配能力与参数效率。
方法详解¶
整体框架¶
输入:M 个模态的医学图像样本 → 每个模态轮流作为 target,其余作为 reference → 辅助 VFM 提取 reference 的 [CLS] token → Adapter 转换为 [INT] token → 拼入 target 模态的 patch embedding 序列最前端 → 主 VFM 完成 UIE([INT] 在所有 Transformer 层与 target 的 patch token 交互)→ 各模态得到 [INT]-intervened 的 CLS feature → 自适应门控加权融合 → 分类预测。
关键设计¶
- [INT] Token 生成:
- 做什么:从参考模态提取高层语义 token 作为跨模态干预信号
- 核心思路:对每个参考模态 \(r\),用辅助 VFM \(\phi_{a,r}\) 提取最后一层 [CLS] token \(Z^L[0]\),收集所有参考模态的 [CLS] token 后通过两层 MLP Adapter 转换为 [INT] 序列。选择最后一层是因为它包含最丰富的高层语义信息
-
设计动机:模拟临床医生的工作流——先从一种检查(如 OCT 断层扫描)形成初步诊断假设,再用该假设引导另一种检查(如 CFP 彩色眼底照)的解读。辅助 VFM 只负责生成 [INT],计算量可控
-
早期干预的主特征提取:
- 做什么:将 [INT] token 拼接到 target 模态 patch embedding 序列的最前端,让其从第 0 层就参与 self-attention
- 核心思路:\(\hat{Z}_t^0 = \text{Concat}(\text{Conv}(\mathbf{x}[t]),\ \text{INT})\),然后正常前向传播得到 \(\hat{\text{CLS}}_t = \phi_{p,t}(\hat{Z}_t^0, L)[0]\)
- 关键实验发现:消融实验明确表明越早注入效果越好——Layer 0 注入始终最优(CLIP 0.824, DINOv2 0.841),Layer 11 注入性能下降到 0.815。这验证了"早期干预"原则的正确性
-
可视化证据:Fig. 2 展示加入 [INT] 后,patch-level 注意力图从发散变为聚焦于病灶区域(如 OCT 中的 drusen、CFP 中的出血点),说明跨模态引导确实让 UIE 更有针对性
-
MoR(Mixture of Low-varied-Ranks Adaptation):
- 做什么:参数高效微调 VFM 的每个线性层
- 核心思路:同时维护 3 个不同 rank(2, 4, 8)的 LoRA adapter,plus 一个松弛路由器(linear + softmax)生成 4 维权重 \([w_0, w_1, w_2, w_3]\),其中 \(w_0\) 是 bypass 权重。输出为 \(h' = Wh + \sum_{k=1}^{3} w_k B_k A_k h\)
- vs LoRA:单一固定 rank 无法适应不同模态和不同样本的复杂度差异
-
vs LoRAMoE:标准 MoE 路由器的权重和为 1,强制接受适配结果;MoR 的 bypass 机制允许模型在原始权重已经足够好时跳过适配(极端情况 \(w_0 = 1\) 时完全跳过所有 LoRA)
-
自适应后期融合:
- 每个模态的 \(\hat{\text{CLS}}_t\) 经线性层投影为 \(C\) 维预测 \(\hat{y}_t\)
- 门控层(linear + softmax)生成模态重要性权重 \(\{\alpha_1, \ldots, \alpha_M\}\)
- 最终预测 \(\hat{y} = \sum_{t=1}^{M} \alpha_t \hat{y}_t\)
损失函数¶
总损失 \(\mathcal{L} = \mathcal{L}_p + \lambda_1 \mathcal{L}_{aa} + \lambda_2 \mathcal{L}_{ag}\),包含三部分:
- 主损失 \(\mathcal{L}_p\):各模态预测和融合预测的交叉熵之和
- 辅助 VFM 监督 \(\mathcal{L}_{aa}\)(\(\lambda_1=0.3\)):保证辅助 VFM 生成的 [INT] 具有任务相关性
- 门控监督 \(\mathcal{L}_{ag}\)(\(\lambda_2=0.1\)):用训练集表现最好模态的 one-hot 先验指导门控权重学习,解决 VFM 框架易过拟合导致各模态训练阶段表现趋同、门控无法区分真实强弱的问题
实验关键数据¶
主实验¶
| 数据集 | 指标(mAP) | EI (DINOv2) | 最佳基线 | 提升 |
|---|---|---|---|---|
| MMC-AMD(视网膜4分类) | mAP | 0.909 | MMRAD 0.821 | +10.7% |
| Derm7pt(皮肤5分类) | mAP | 0.767 | MMRAD 0.566 | +35.5% |
| MRNet(膝关节3分类) | mAP | 0.848 | MM-MIL 0.835 | +1.6% |
| 三数据集均值 | MEAN | 0.841 | MMRAD 0.735 | +14.4% |
- EI 可训练参数仅 8.9M,而全参微调基线动辄 200-400M
- 域偏移最大的 Derm7pt 上提升最显著,mAP 从 0.566 直接拉到 0.767
- 通用 VFM(CLIP/DINOv2)全面优于领域专用 VFM(RETFound/PanDerm/RadioDINO),说明 EI+MoR 的适配策略优于从头训练领域模型
消融实验¶
| 配置 | MEAN mAP | 说明 |
|---|---|---|
| EI + MoR(完整模型) | 0.833 | 最优 |
| 融合方式改为 after UIE | 0.806 | 退化为传统late fusion |
| [INT] 注入 Layer 11 而非 Layer 0 | 0.815 | 越晚注入越差 |
| 去掉 \(\mathcal{L}_{aa}\) | 0.820 | 辅助VFM监督有用 |
| 去掉 \(\mathcal{L}_{ag}\) | 0.811 | 门控监督贡献更大 |
| MoR → LoRA | 约降 2-3% | 固定rank不够灵活 |
| MoR 去掉 bypass | 略降 | bypass 允许跳过不必要适配 |
关键发现¶
- 早期干预是核心贡献:将 EI 退化为传统 after-UIE 融合后性能显著下降,证明"融合太晚"确实是瓶颈
- Layer 0 注入最优:[INT] 注入位置越早性能越好,符合"尽早引入跨模态信息"的设计理念
- MoR > LoRAMoE > LoRA > prompt learning > 全参微调:在数据稀缺的医学场景中,PEFT 方法的设计质量至关重要
- 通用 VFM 优于领域 VFM:VFM 的预训练数据规模和特征多样性比领域匹配更重要
亮点与洞察¶
- Early Intervention 的临床对齐:将"先看一种检查结果形成假设再引导后续检查"这一临床工作流程翻译为 [INT] token 的注入,概念简洁且直觉强。可视化证据(注意力图从发散变为聚焦病灶)非常有说服力
- MoR 的 bypass 设计:一个极简的改进——把路由器输出维度从 3 扩到 4,就能让模型自适应决定是否需要 LoRA 适配。这个 trick 适用于任何 MoE-LoRA 框架
- Adapter 做桥梁:辅助 VFM 和主 VFM 是不同的(前者冻结参数少,后者需要精细适配),用两层 MLP 做 [INT] 的兼容性转换,避免了特征空间不对齐的问题
局限性 / 可改进方向¶
- 辅助 VFM 额外开销:每个参考模态需要一个辅助 VFM 前向传播,M 个模态需要 2M 个 VFM(M 个辅助 + M 个主),计算量约为单模态的 2 倍
- 仅验证了 M=2,3 的场景:当模态数量更多(如 5 种以上医学影像)时,[INT] 序列长度线性增长,self-attention 的复杂度可能成为瓶颈
- 数据集规模偏小:最大 Derm7pt 仅 1011 样本,MMC-AMD 只有 768 样本,结论在大规模数据集上是否成立待验
- [INT] 只用最后层 [CLS]:局限于高层语义信息,低层纹理/边缘信息被丢弃,对需要低层特征互补的任务可能不够
相关工作与启发¶
- vs MMRAD:同样用 VFM+PEFT,MMRAD 用 prompt learning 且在 UIE 之后才融合;EI 在 UIE 之前融合 + 用 MoR 替代 prompt learning,两个维度都有改进
- vs MM-MIL:MM-MIL 用 ResNet 全参微调 + weighted sum 晚期融合;用 MoR 替换其backbone后(MM-MIL-MoR)性能从 0.733 升到 0.823,但仍不及完整 EI(0.841),说明早期干预的贡献独立于 PEFT 选择
- 可迁移思路:[INT] token 注入机制可以迁移到任何多模态 ViT 框架(如视频+音频、RGB+深度),核心是用一个模态的高层语义在另一个模态的 embedding 阶段做引导
评分¶
- 新颖性: ⭐⭐⭐⭐ 早期干预的思路直觉强且有临床对齐,MoR 是 LoRA-MoE 的合理改进
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、两个VFM、详尽的消融和超参分析,实验非常扎实
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机推导流畅,临床对比生动
- 价值: ⭐⭐⭐⭐ 对多模态医学图像领域贡献显著,MoR 和 early intervention 的思路可迁移