跳转至

CLoE: Expert Consistency Learning for Missing Modality Segmentation

会议: CVPR 2025
arXiv: 2603.09316
代码: 无
领域: 医学图像
关键词: missing modality, multimodal segmentation, expert consistency, brain tumor, MRI

一句话总结

提出 CLoE 框架,将缺失模态分割的鲁棒性问题重新定义为决策层专家一致性控制问题,通过全局模态专家一致性(MEC)和区域专家一致性(REC)双分支约束减少专家漂移,并用轻量门控网络将一致性分数转化为可靠性权重指导特征融合,在 BraTS 2020 和 MSD Prostate 上超越 SOTA。

研究背景与动机

  1. 领域现状:多模态 MRI 分割(如T1、T1c、T2、FLAIR)在脑肿瘤诊断中广泛使用,主流方法假设所有模态均可用,基于 U-Net/V-Net 编解码器架构进行体素级分割。
  2. 现有痛点:临床中经常出现模态缺失(设备故障、协议差异、质量问题),现有方法应对策略包括:GAN 合成缺失模态(CollaGAN)、算术融合(HeMIS)、潜在表示学习(DC-Seg)、注意力自适应融合(SE、CBAM、RFNet)。但这些方法要么不能判断哪个专家更可靠,要么在缺失模态用零填充时注意力机制失效。
  3. 核心矛盾:缺失模态导致各模态专家预测产生分歧(expert disagreement),固定权重或无约束注意力融合会放大这种分歧,尤其在小而关键的前景区域(如增强肿瘤)。一致性学习虽在半监督学习中有效,但全局一致性容易被背景像素主导,忽略小肿瘤子区域。
  4. 本文要解决什么? (a) 如何量化并减少模态专家间的预测不一致性?(b) 如何避免全局一致性被背景主导?(c) 如何将一致性信号转化为可靠性权重指导融合?
  5. 切入角度:将鲁棒性问题从特征层面重新定义到决策层面——不是修复缺失特征,而是控制专家预测的一致性,并用一致性程度作为可靠性的代理指标。
  6. 核心idea一句话:用余弦相似度衡量专家预测一致性,分全局和前景区域两个层面施加约束,并将一致性分数经门控网络映射为融合权重。

方法详解

整体框架

CLoE 由并行模态编码器、一致性驱动门控模块和共享融合解码器三部分组成。每个模态 \(m\) 有独立编码器 \(\Phi_m\) 提取多尺度特征,一个共享权重的专家解码器 \(D^{\text{sep}}\) 生成各模态的独立预测 \(p^{(m)}\),然后通过动态门控机制聚合多尺度特征,由融合解码器 \(D^{\text{fuse}}\) 输出最终分割。

关键设计

  1. Modality Expert Consistency (MEC):
  2. 做什么:强制所有可用模态专家的预测在全局分布上保持一致
  3. 核心思路:将每对可用专家的预测向量化后计算余弦相似度 \(\mathcal{S}(\mathbf{p}^{(a)}, \mathbf{p}^{(b)})\),MEC 损失为所有专家对的不一致性均值 \(\mathcal{L}_{\text{MEC}} = \frac{1}{|\mathcal{P}|}\sum(1 - \mathcal{S})\)
  4. 设计动机:缺失模态下专家容易出现 case-wise drift(个案偏移),全局一致性约束迫使专家在可用模态条件下达成共识

  5. Region Expert Consistency (REC):

  6. 做什么:在前景关键区域(如肿瘤)上强制专家一致性,避免全局一致性被大量背景像素稀释
  7. 核心思路:通过轻量投影头 \(\pi(\cdot)\) 从浅层特征聚合生成概率区域图 \(r = \sigma(\pi(\frac{1}{|\mathcal{A}|}\sum f_1^{(m)}))\),用 \(r\) 加权专家预测后再计算余弦一致性
  8. 设计动机:体积 MRI 中背景像素远多于前景,全局一致性可能在小肿瘤子区域(如 ET)上无法对齐,REC 聚焦临床关键结构

  9. Consistency-Driven Dynamic Gating:

  10. 做什么:将一致性分数转化为模态可靠性权重,指导特征融合
  11. 核心思路:为每个可用专家计算全局/区域一致性分数 \((u_m, v_m)\),通过门控网络 \(\mathcal{G}\) 映射为 logit \(g_m\),经 softmax 归一化得到融合权重 \(w_m\),多尺度特征按 \(f_\ell = \sum w_m \odot f_\ell^{(m)}\) 加权融合
  12. 设计动机:一致性高的专家更可信,应获得更大权重;一致性低的可能受缺失模态影响,应被抑制

损失函数 / 训练策略

总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{seg}} + \alpha \mathcal{L}_{\text{ECL}} + \beta \mathcal{L}_{\text{contrast}}\),其中: - \(\mathcal{L}_{\text{seg}}\):融合预测的 WCE + Dice 损失 - \(\mathcal{L}_{\text{ECL}}\):各专家独立监督(WCE+Dice) + \(\eta(\mathcal{L}_{\text{MEC}} + \lambda_{\text{rec}} \mathcal{L}_{\text{REC}})\) - \(\mathcal{L}_{\text{contrast}}\):对比表示损失(内容SSIM对齐 + 风格余弦聚类 + VAE重建/KL),借鉴 DC-Seg 的解纠缠思想

实验关键数据

主实验

数据集 指标 CLoE DC-Seg M³AE RFNet 提升(vs DC-Seg)
BraTS 2020 (15组缺失) WT Dice平均 88.09 87.54 86.90 86.98 +0.55%
BraTS 2020 TC Dice平均 80.23 79.63 79.10 78.23 +0.60%
BraTS 2020 ET Dice平均 65.06 65.00 61.70 61.47 +0.06%
MSD Prostate (PZ) T2 Dice 80.33 79.21 - 75.18 +1.12%
MSD Prostate (PZ) ADC Dice 77.12 75.89 - 72.07 +1.23%
MSD Prostate (PZ) T2&ADC Dice 82.91 81.67 - 78.00 +1.24%
MSD Prostate (PZ) Avg Dice 80.12 79.59 - 77.35 +0.53%

消融实验

配置 WT Dice TC Dice ET Dice 说明
Full CLoE 88.09 80.23 65.06 完整模型
w/o REC 86.40 79.39 61.65 去掉区域一致性,ET 掉 3.41%
w/o Weight Fusion 86.52 78.33 61.10 去掉加权融合,ET 掉 3.96%
w/o MEC 87.75 80.01 63.50 去掉全局一致性,影响较小
w/o Gating 87.99 80.08 63.90 去掉门控网络,影响最小

关键发现

  • REC 和 Weight Fusion 是核心组件:去掉任一个 ET Dice 下降 >3%,说明前景区域一致性和一致性驱动融合对增强肿瘤等小目标至关重要
  • MEC 和 Gating 单独去除影响较小,说明它们是辅助精调角色
  • 在 MSD Prostate 这个只有 2 个模态、48 例训练数据的极端场景下仍有效,证明方法在少模态/少样本下的鲁棒性

亮点与洞察

  • 将鲁棒性从特征层面提升到决策层面:不修复缺失特征,而是控制专家预测的一致性。这个视角比生成式补全(如 GAN 合成缺失模态)更轻量且更直接
  • 区域一致性(REC)巧妙解决背景主导问题:通过可学习的前景概率图加权,自动聚焦小目标区域的专家一致性,无需手动设定 ROI
  • 一致性→可靠性的映射可迁移:将专家间一致性作为可靠性代理信号的思路,可推广到多视角融合、多模型集成等场景

局限性 / 可改进方向

  • 实验仅在两个数据集(BraTS 2020 + MSD Prostate)上验证,未在其他多模态场景(如心脏、腹部多器官)测试,泛化性有待确认
  • 对比表示损失(\(\mathcal{L}_{\text{contrast}}\))直接借鉴 DC-Seg 的解纠缠设计,缺乏自身创新
  • 消融中 MEC 单独贡献不大(去除仅掉 0.34% WT Dice),全局一致性约束的必要性存疑
  • 推理时门控网络需要所有可用专家先生成预测再融合,增加了一次前向传播开销
  • 训练需对所有 \(2^M - 1\) 种模态组合进行采样,模态数增多时训练成本增长显著
  • 余弦相似度作为一致性度量是否最优未做对比(如 KL 散度、JS 散度等替代方案)

相关工作与启发

  • vs DC-Seg:DC-Seg 侧重潜在空间解纠缠(内容/风格分离),CLoE 加入决策层一致性控制,两者互补;CLoE 在 WT/TC 上提升更明显
  • vs M³AE:M³AE 用大规模预训练多模态自编码器,模型更重但 ET 性能不如 CLoE,说明决策层约束比大模型预训练更有针对性
  • vs RFNet:RFNet 用区域感知先验指定"在哪看",CLoE 用一致性指定"信谁",是互补的两个维度
  • vs 半监督一致性:Mean Teacher 等方法在 teacher-student 间做一致性,CLoE 在同级 peer experts 间做一致性,适用于多模态融合场景

评分

  • 新颖性: ⭐⭐⭐⭐ 将缺失模态鲁棒性重新定义为专家一致性控制是有价值的新视角,但对比损失部分缺乏新意
  • 实验充分度: ⭐⭐⭐⭐ 15 种缺失组合 + 两个数据集 + 完整消融,但缺少更多器官/模态的验证
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,公式推导完整,但论文较短
  • 价值: ⭐⭐⭐⭐ 方法轻量有效,一致性→可靠性的映射思路有广泛适用性