跳转至

Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation

会议: AAAI 2026
arXiv: 2601.05855
代码:
领域: 医学图像
关键词: 半监督学习, 医学图像分割, 通道选择, 双向交互, 弱到强一致性

一句话总结

提出 BCSI 框架,通过通道选择路由器动态筛选关键特征通道,在标注和未标注数据流之间进行双向通道级交互,结合语义-空间扰动的弱到强一致性学习,显著提升半监督医学图像分割性能。

研究背景与动机

半监督医学图像分割旨在利用少量标注数据和大量未标注数据训练分割模型。现有方法主要基于两大框架:

  1. Mean Teacher(MT)框架:学生网络通过梯度传播更新,教师网络通过 EMA 更新。但教师模型容易受到学生模型累积预测误差的影响
  2. 双流一致性框架:采用多解码器或双分支架构,通过强制不同网络头对相同输入的预测一致来提升泛化能力。但容易收敛到相似的决策边界,且计算复杂度较高

现有方法的三个核心问题:

  • 误差累积:MT 框架中教师模型性能退化
  • 模型复杂度:多解码器结构增加计算开销
  • 缺乏数据流交互:标注和未标注数据分别训练,忽略了两者之间的潜在交互关系

AllSpark 指出分离训练导致标注数据主导,产生低质量伪标签。SKCDF 提出解耦数据流,但现有方法均缺乏双向数据交互,且未区分各通道的贡献度——过度操作所有通道会引入冗余信息和噪声。

方法详解

整体框架

BCSI 框架采用单一编码器-解码器结构(VNet),包含三个核心组件:

  1. 语义-空间扰动(SSP):对数据施加两种强增强和一种弱增强
  2. 通道选择路由器(CR):动态选择最相关的特征通道进行交互
  3. 双向通道级交互(BCI):在选中的通道上进行标注与未标注数据的双向特征交换

关键设计

1. 语义-空间扰动(SSP)

SSP 不依赖多解码器或双流架构,而是通过两种强增强策略提升模型鲁棒性:

  • 语义扰动(Color Jitter)\(x_{s_{col}}^u = \alpha \cdot x^u + \beta + \mathcal{N}(\mu, \sigma^2)\),随机改变亮度、对比度并添加高斯噪声
  • 空间扰动(Copy-Paste)\(x_{s_{mix}}^u = \mathcal{M} \odot x^l + (1 - \mathcal{M}) \odot x^u\),通过随机二值掩码混合标注和未标注数据的空间区域

三种增强的预测同时输入模型:弱增强预测作为伪标签监督强增强预测,两种强增强预测之间进行一致性约束。

2. 通道选择路由器(CR)

特征交互中并非所有通道都有益,CR 通过学习动态选择最具信息量的通道:

  • 输入:编码器提取的标注特征 \(\mathcal{F}^l \in \mathbb{R}^{C \times h \times w \times d}\) 和未标注特征 \(\mathcal{F}^u\)
  • 路由评分:轻量级路由器 \(\mathcal{G}(\cdot)\) 生成通道重要性评分 \(\mathbf{s} \in \mathbb{R}^C\)
  • 稀疏掩码:通过 Top-K 选择构建稀疏通道掩码 \(\mathcal{R} = \delta(\mathbf{s} \geq \tau_K(\mathbf{s}))\)
  • 特征选择\(\mathcal{F}_{sub}^l = \mathcal{F}^l \odot \mathcal{R}^l\),仅保留 K 个最相关通道

实验中 K=64(总通道 256),路由器相比随机选择在 LA 数据集上 Dice 提升 1.17%。

3. 双向通道级交互(BCI)

BCI 在选中通道上实现有标注和无标注数据的深层信息交互:

特征容器:随机初始化两个特征队列 \(\mathcal{Q}^l, \mathcal{Q}^u \in \mathbb{R}^{M \times L}\)(M=最大长度,L=单通道长度)存储历史特征,按先进先出原则更新。

相似度检索:计算选中通道与容器中特征的余弦相似度,检索最相似的特征:

\[\mathcal{F}_q^l = \{\arg\max_{f_q \in \mathcal{Q}^l} \text{Sim}(\mathcal{F}_{sub,k}^l, f_q)\}_{k=1}^K\]

交叉注意力交互:通过 Q-K-V 注意力机制实现双向特征融合:

\[\tilde{\mathcal{F}}_{sub}^l = \sigma(\mathbf{Q}(\mathcal{F}_{sub}^l) \cdot \mathbf{K}(\mathcal{F}_q^u)^\top / \sqrt{d}) \cdot \mathbf{V}(\mathcal{F}_q^u) + \mathcal{F}_{sub}^l\]

特征回插:交互后的特征通过稀疏掩码回插原始特征:\(\tilde{\mathcal{F}^l} = \tilde{\mathcal{F}}_{sub}^l \odot \mathcal{R}^l + \mathcal{F}^l \odot (1 - \mathcal{R}^l)\)

损失函数 / 训练策略

总损失由三部分组成:\(\mathcal{L}_{total} = \mathcal{L}_{sup} + \mathcal{L}_{cons} + \lambda_u \mathcal{L}_{unsup}\)

  • 监督损失:对标注数据的三种增强(两强一弱)计算加权分割损失 \(\mathcal{L}_{seg} = \mathcal{L}_{BCE} + \mathcal{L}_{IoU}\),使用不确定性权重引导
  • 无监督损失:弱增强预测作为伪标签,监督两种强增强预测
  • 一致性损失:两种强增强预测之间的 MSE 一致性约束
  • 权重预热\(\lambda_u(t) = 0.1 \times e^{-5(1-t/t_{max})^2}\)

训练设置:SGD 优化器(lr=0.01, momentum=0.9),30k 次迭代,batch size=4,NVIDIA 4090 GPU。

实验关键数据

主实验

在三个 3D 医学分割基准上对比 11 种 SOTA 方法:

Left Atrium 数据集(100 例 3D MRI):

方法 10% Dice↑ 10% 95HD↓ 20% Dice↑ 20% 95HD↓
VNet (SupOnly) 82.74 13.35 84.93 14.50
BCP 89.62 6.81 90.38 6.68
UnCo 90.37 6.11 90.91 5.36
BCSI (Ours) 91.07 5.57 91.84 5.06

BraTS-2019 数据集(335 例多模态 MRI):

方法 10% Dice↑ 10% 95HD↓ 20% Dice↑ 20% 95HD↓
VNet (SupOnly) 74.43 37.11 80.16 22.68
UnCo 85.09 8.63 85.16 8.41
BCSI (Ours) 86.17 8.43 86.86 7.62

Pancreas-CT 数据集(82 例腹部 CT):BCSI 在 10% 标注比下 Dice 达 80.41%(UnCo 为 78.53%),95HD 降至 6.33。

消融实验

关键组件消融(LA 20%):

SSP BCI CR Dice↑ 95HD↓
88.60 10.98
90.58 6.43
89.23 7.50
91.84 5.06

交互方向消融:双向交互(Lab↔Unlab, Dice=91.84%)优于单向(Lab→Unlab=91.42%, Lab←Unlab=91.39%)。

通道选择数量:K=64 最优(91.84%),全通道 K=256 性能最差(91.27%),证实选择性交互的必要性。

关键发现

  • SSP 弱到强一致性优于传统 MT 结构(+2%+ Dice)
  • 双向交互优于单向交互,标注→未标注方向稍优于反向
  • 路由器选择优于随机选择(+1.17% Dice),说明动态选择关键通道确实减少了噪声干扰
  • 在 BraTS-2019 上 20% 标注数据下超越完全监督 VNet 的 95HD 指标

亮点与洞察

  1. 通道选择思路新颖:不是所有特征通道都适合交互,只选择 Top-K 通道做交互相当于一种「精准扰动」,既增强了特征又避免了冗余噪声
  2. 单模型架构:避免了双流/多解码器的复杂性,用数据增强策略(而非模型结构)实现多样性
  3. 特征容器设计:FIFO 队列存储历史特征增强了模型的长期记忆能力,类似 MoCo 的动量队列思想
  4. 双重角色认知:首次明确指出特征交互既是增强也是扰动,并利用这种双重性提升模型鲁棒性

局限性 / 可改进方向

  • 论文未讨论方法在 2D 医学图像上的适用性,实验仅涉及 3D 数据
  • CR 路由器的设计较为简单(轻量级网络),可探索更复杂的路由策略如 MoE 风格的门控
  • 特征容器的最大长度固定(2560),可考虑自适应调整
  • 未与 SAM 等基础模型结合的半监督方法进行充分对比(仅在讨论中部分提及)

相关工作与启发

  • AllSpark(CVPR 2024):提出通道级交叉注意力从未标注数据重生标注特征,但缺乏选择性
  • SKCDF:解耦编码器和解码器角色,但不支持双向交互
  • UniMatch:引入辅助特征扰动流的一致性训练,启发了弱到强策略
  • 通道选择的思路可推广到其他需要跨数据流交互的任务(如域适应、联邦学习)

评分

  • 创新性: ★★★★☆ — 通道选择路由器和双向交互是有价值的新设计
  • 实验充分度: ★★★★★ — 三个数据集、11 种对比方法、详细消融
  • 写作质量: ★★★★☆ — 结构清晰,公式推导详细
  • 实用性: ★★★★☆ — 单模型架构计算开销可控,有代码开源