EI: Early Intervention for Multimodal Imaging based Disease Recognition¶

会议: CVPR 2026
arXiv: 2603.17514
代码: github.com/ruc-aimc-lab/EI
领域: 医学图像 / 多模态融合
关键词: 多模态医学图像, 早期干预, LoRA, MoE, VFM适配, 疾病识别

一句话总结¶

EI 提出在单模态嵌入（UIE）之前就注入跨模态语义引导（[INT] token），模拟临床医生"先看一个模态形成初步判断再指导另一个模态检查"的工作流程，同时设计 MoR（多种秩 LoRA + 带旁路的松弛路由器）实现参数高效的 VFM 医学域适配，在视网膜/皮肤/膝关节三个数据集上以 <9M 可训练参数超越所有全参微调和 prompt learning 基线。

研究背景与动机¶

领域现状：多模态医学图像（如 CFP+OCT 眼底、皮肤镜+临床照片、多视角 MRI）的疾病识别是 CV 重要任务。现有方法（MM-MIL、CosCatNet、RadDiag、MMRAD）都遵循"fusion after UIE"范式——先用各自编码器独立提取单模态特征，再通过拼接/加权求和/注意力做后期融合。
痛点一——融合太晚：所有方法在单模态嵌入（UIE）阶段对其他模态"一无所知"，导致 UIE 无法利用互补信息。这与临床实践不符——医生从不孤立解读某一模态，而是先从一个模态形成初步假设，再用该假设引导另一模态的检查。
痛点二——VFM 适配难：医学标注数据稀缺 + 自然图像与医学图像存在巨大域偏移。CLIP/DINOv2 等 VFM 直接用效果差，全参微调会过拟合，prompt learning 只能激活预有知识、无法注入新知识。
核心思路：(a) 将参考模态的高层语义（[CLS] token）作为干预 token [INT]，在目标模态 UIE 的最早期注入；(b) 设计 MoR——多种秩 LoRA + 带 bypass 的松弛路由器，兼顾适配能力与参数效率。

方法详解¶

整体框架¶

输入：M 个模态的医学图像样本 → 每个模态轮流作为 target，其余作为 reference → 辅助 VFM 提取 reference 的 [CLS] token → Adapter 转换为 [INT] token → 拼入 target 模态的 patch embedding 序列最前端 → 主 VFM 完成 UIE（[INT] 在所有 Transformer 层与 target 的 patch token 交互）→ 各模态得到 [INT]-intervened 的 CLS feature → 自适应门控加权融合 → 分类预测。

关键设计¶

[INT] Token 生成:
做什么：从参考模态提取高层语义 token 作为跨模态干预信号
核心思路：对每个参考模态 \(r\)，用辅助 VFM \(\phi_{a,r}\) 提取最后一层 [CLS] token \(Z^L[0]\)，收集所有参考模态的 [CLS] token 后通过两层 MLP Adapter 转换为 [INT] 序列。选择最后一层是因为它包含最丰富的高层语义信息
设计动机：模拟临床医生的工作流——先从一种检查（如 OCT 断层扫描）形成初步诊断假设，再用该假设引导另一种检查（如 CFP 彩色眼底照）的解读。辅助 VFM 只负责生成 [INT]，计算量可控
早期干预的主特征提取:
做什么：将 [INT] token 拼接到 target 模态 patch embedding 序列的最前端，让其从第 0 层就参与 self-attention
核心思路：\(\hat{Z}_t^0 = \text{Concat}(\text{Conv}(\mathbf{x}[t]),\ \text{INT})\)，然后正常前向传播得到 \(\hat{\text{CLS}}_t = \phi_{p,t}(\hat{Z}_t^0, L)[0]\)
关键实验发现：消融实验明确表明越早注入效果越好——Layer 0 注入始终最优（CLIP 0.824, DINOv2 0.841），Layer 11 注入性能下降到 0.815。这验证了"早期干预"原则的正确性
可视化证据：Fig. 2 展示加入 [INT] 后，patch-level 注意力图从发散变为聚焦于病灶区域（如 OCT 中的 drusen、CFP 中的出血点），说明跨模态引导确实让 UIE 更有针对性
MoR（Mixture of Low-varied-Ranks Adaptation）:
做什么：参数高效微调 VFM 的每个线性层
核心思路：同时维护 3 个不同 rank（2, 4, 8）的 LoRA adapter，plus 一个松弛路由器（linear + softmax）生成 4 维权重 \([w_0, w_1, w_2, w_3]\)，其中 \(w_0\) 是 bypass 权重。输出为 \(h' = Wh + \sum_{k=1}^{3} w_k B_k A_k h\)
vs LoRA：单一固定 rank 无法适应不同模态和不同样本的复杂度差异
vs LoRAMoE：标准 MoE 路由器的权重和为 1，强制接受适配结果；MoR 的 bypass 机制允许模型在原始权重已经足够好时跳过适配（极端情况 \(w_0 = 1\) 时完全跳过所有 LoRA）
自适应后期融合:
每个模态的 \(\hat{\text{CLS}}_t\) 经线性层投影为 \(C\) 维预测 \(\hat{y}_t\)
门控层（linear + softmax）生成模态重要性权重 \(\{\alpha_1, \ldots, \alpha_M\}\)
最终预测 \(\hat{y} = \sum_{t=1}^{M} \alpha_t \hat{y}_t\)

损失函数¶

总损失 \(\mathcal{L} = \mathcal{L}_p + \lambda_1 \mathcal{L}_{aa} + \lambda_2 \mathcal{L}_{ag}\)，包含三部分：

主损失 \(\mathcal{L}_p\)：各模态预测和融合预测的交叉熵之和
辅助 VFM 监督 \(\mathcal{L}_{aa}\)（\(\lambda_1=0.3\)）：保证辅助 VFM 生成的 [INT] 具有任务相关性
门控监督 \(\mathcal{L}_{ag}\)（\(\lambda_2=0.1\)）：用训练集表现最好模态的 one-hot 先验指导门控权重学习，解决 VFM 框架易过拟合导致各模态训练阶段表现趋同、门控无法区分真实强弱的问题

实验关键数据¶

主实验¶

数据集	指标(mAP)	EI (DINOv2)	最佳基线	提升
MMC-AMD（视网膜4分类）	mAP	0.909	MMRAD 0.821	+10.7%
Derm7pt（皮肤5分类）	mAP	0.767	MMRAD 0.566	+35.5%
MRNet（膝关节3分类）	mAP	0.848	MM-MIL 0.835	+1.6%
三数据集均值	MEAN	0.841	MMRAD 0.735	+14.4%

EI 可训练参数仅 8.9M，而全参微调基线动辄 200-400M
域偏移最大的 Derm7pt 上提升最显著，mAP 从 0.566 直接拉到 0.767
通用 VFM（CLIP/DINOv2）全面优于领域专用 VFM（RETFound/PanDerm/RadioDINO），说明 EI+MoR 的适配策略优于从头训练领域模型

消融实验¶

配置	MEAN mAP	说明
EI + MoR（完整模型）	0.833	最优
融合方式改为 after UIE	0.806	退化为传统late fusion
[INT] 注入 Layer 11 而非 Layer 0	0.815	越晚注入越差
去掉 \(\mathcal{L}_{aa}\)	0.820	辅助VFM监督有用
去掉 \(\mathcal{L}_{ag}\)	0.811	门控监督贡献更大
MoR → LoRA	约降 2-3%	固定rank不够灵活
MoR 去掉 bypass	略降	bypass 允许跳过不必要适配

关键发现¶

早期干预是核心贡献：将 EI 退化为传统 after-UIE 融合后性能显著下降，证明"融合太晚"确实是瓶颈
Layer 0 注入最优：[INT] 注入位置越早性能越好，符合"尽早引入跨模态信息"的设计理念
MoR > LoRAMoE > LoRA > prompt learning > 全参微调：在数据稀缺的医学场景中，PEFT 方法的设计质量至关重要
通用 VFM 优于领域 VFM：VFM 的预训练数据规模和特征多样性比领域匹配更重要

亮点与洞察¶

Early Intervention 的临床对齐：将"先看一种检查结果形成假设再引导后续检查"这一临床工作流程翻译为 [INT] token 的注入，概念简洁且直觉强。可视化证据（注意力图从发散变为聚焦病灶）非常有说服力
MoR 的 bypass 设计：一个极简的改进——把路由器输出维度从 3 扩到 4，就能让模型自适应决定是否需要 LoRA 适配。这个 trick 适用于任何 MoE-LoRA 框架
Adapter 做桥梁：辅助 VFM 和主 VFM 是不同的（前者冻结参数少，后者需要精细适配），用两层 MLP 做 [INT] 的兼容性转换，避免了特征空间不对齐的问题

局限性 / 可改进方向¶

辅助 VFM 额外开销：每个参考模态需要一个辅助 VFM 前向传播，M 个模态需要 2M 个 VFM（M 个辅助 + M 个主），计算量约为单模态的 2 倍
仅验证了 M=2,3 的场景：当模态数量更多（如 5 种以上医学影像）时，[INT] 序列长度线性增长，self-attention 的复杂度可能成为瓶颈
数据集规模偏小：最大 Derm7pt 仅 1011 样本，MMC-AMD 只有 768 样本，结论在大规模数据集上是否成立待验
[INT] 只用最后层 [CLS]：局限于高层语义信息，低层纹理/边缘信息被丢弃，对需要低层特征互补的任务可能不够

评分¶

新颖性: ⭐⭐⭐⭐ 早期干预的思路直觉强且有临床对齐，MoR 是 LoRA-MoE 的合理改进
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、两个VFM、详尽的消融和超参分析，实验非常扎实
写作质量: ⭐⭐⭐⭐ 结构清晰，动机推导流畅，临床对比生动
价值: ⭐⭐⭐⭐ 对多模态医学图像领域贡献显著，MoR 和 early intervention 的思路可迁移