Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation¶

会议: CVPR 2026 arXiv: 2603.05202 代码: GitHub 领域: 医学图像 关键词: 半监督分割, 类别不平衡, 类别分布学习, 代理分布, 语义锚约束

一句话总结¶

提出 SCDL 即插即用框架，通过可学习类别代理分布的双向对齐（CDBA）和标注数据构建的语义锚约束（SAC），在嵌入空间中学习结构化的类条件特征分布，解决半监督医学图像分割中的监督偏置和表征不平衡问题，尤其在尾类分割上取得显著提升。

研究背景与动机¶

半监督医学图像分割（SSMIS）面临两个叠加挑战：

监督信号偏置：大器官占据更多像素 → 梯度更新偏向头部类 → 自生成伪标签和一致性约束进一步强化头部类学习 → 尾部类训练不充分
表征级不平衡：现有方法（重加权、输出校准）主要在 loss 或输出层操作，缺乏对类条件特征分布的直接约束 → 头部类特征更紧凑，尾部类特征漂移到头部类主导区域 → 类别边界模糊

关键洞察：现有方法用未标注数据仅做局部一致性正则化，很少利用它来显式纠正类条件特征分布的偏斜。

方法详解¶

整体框架¶

SCDL 作为即插即用模块嵌入现有分割网络。核心思想：在嵌入空间中为每个类别维护一个可学习的高斯代理分布，通过双向对齐约束和语义锚引导来学习结构化的类条件特征。

关键设计¶

类别分布双向对齐（CDBA）：
类别分布建模：每个语义类 $c$ 用可学习高斯代理表示：$p(u|c) = \mathcal{N}(\mu_c, \text{diag}(\sigma_c^2))$，$\mu_c$ 和 $\sigma_c$ 为可训练参数。对于 batch 嵌入 $\mathbf{Z} \in \mathbb{R}^{B \times L \times D}$，通过余弦相似度 softmax 计算每个 token 到所有类别代理的软分配：$P(c|z_{i,l}) = \text{softmax}_c(\cos(z_{i,l}, \mu_c))$。
Embedding-to-Proxy（E2P）对齐：鼓励嵌入靠近其软分配的代理分布： $$\mathcal{L}_{E2P} = \sum_{i,l} \sum_c P(c|z_{i,l}) \cdot [1 - \cos(z_{i,l}, \mu_c)]$$ 通过软权重确保梯度流向少数类代理，缓解多数类主导。
Proxy-to-Embedding（P2E）对齐：优化每个代理以区分其软分配的嵌入： $$\mathcal{L}_{P2E} = \frac{1}{C} \sum_c \exp\left(-\mathbb{E}_{i,l}[(2P(c|z_{i,l})-1) \cos(z_{i,l}, \mu_c)]\right)$$ 鼓励代理对自身类嵌入高相似度、对他类嵌入低相似度，增强判别性。
代理采样与特征增强：构造三种先验并拼接注入解码器：
- 分布加权先验 $\mathbf{r}^{dist}$：从代理分布采样 $S$ 个样本，按分布相似度加权组合代理均值
- 中心相似度先验 $\mathbf{r}^{center}$：直接基于余弦相似度加权代理均值
- token 采样先验 $\mathbf{z}^{sam}$：对每个 token 局部扰动增强鲁棒性
语义锚约束（SAC）：
问题：CDBA 中代理随机初始化、缺乏语义监督，可能偏离真实类别语义。
语义锚构造：基于 GT mask 提取标注区域的类别特征，过共享编码器得到类感知嵌入，按类别平均得到语义锚：$\text{anchor}_c = \frac{1}{|\mathcal{Z}_c|} \sum_{z \in \mathcal{Z}_c} z$。锚在反向传播时 detach（只更新代理不更新编码器）。
对齐损失： $$\mathcal{L}_{SAC} = \frac{1}{C} \sum_c [1 - \cos(\mu_c, \text{anchor}_c)]$$ 确保代理编码真实类别语义，即使少样本类也能获得可靠引导。
即插即用集成：SCDL 可与多种 SSMIS 基线（GenericSSL、DHC、GA-MagicNet、GA-CPS）组合，仅需在编码器输出和解码器之间插入模块。

损失函数 / 训练策略¶

总损失 = 原始分割损失 + $\mathcal{L}_{E2P}$ + $\mathcal{L}_{P2E}$ + $\mathcal{L}_{SAC}$。SCDL 模块权重衰减 1e-4，其余训练配置跟随各基线设定。

实验关键数据¶

主实验¶

数据集	指标	SCDL-GA-CPS	GA-CPS	提升
Synapse (20% labeled)	DSC↑	67.50	66.29	+1.21
Synapse (20% labeled)	ASD↓	3.32	5.44	-2.12
AMOS (5% labeled)	DSC↑	61.57	50.90	+10.67
AMOS (5% labeled)	ASD↓	10.08	13.77	-3.69

AMOS 上 SCDL-GenericSSL 较基线 DSC 提升 +11.62%，SCDL-DHC 的 ASD 从 40.65 降至 17.47（↓23.18）。

消融实验¶

尾类逐类 Dice（Synapse, 20% labeled）关键改善：

配置	PA (胰腺)	RAG (右肾上腺)	LAG (左肾上腺)	说明
GA-CPS	45.5	44.7	57.4	基线
SCDL-GA-CPS	49.4	49.2	62.4	尾类显著提升
GenericSSL	39.4	40.4	41.4	基线
SCDL-GenericSSL	43.0	42.4	45.1	少样本类也有提升

关键发现¶

SCDL 对所有测试基线均有一致提升，证实即插即用的通用性
在标注极度稀缺的 AMOS (5%) 上提升最为显著（最高 +11.62% DSC），说明分布约束在低标注场景下尤为重要
尾类（胰腺、肾上腺）改善幅度大于头部类（肝脏、脾脏），验证了去偏假设

亮点与洞察¶

即插即用设计：不改变主网络训练流程，仅在嵌入空间添加分布约束，工程实现简洁
双向对齐的对称设计优雅：E2P 拉嵌入向代理、P2E 促代理判别，互为补充
语义锚用 GT mask 提取的编码器特征引导代理，避免代理学习到虚假模式
三种先验（分布、中心、采样）提供互补信号，在方差建模和鲁棒性之间取得平衡

局限性 / 可改进方向¶

对角高斯假设可能不足以建模复杂的类别特征流形（如非凸或多模态分布）
代理数量等于类别数，不处理类内子分布差异（如器官不同切面的外观变化）
仅在 CT 数据集上验证，MRI/超声等模态的泛化需进一步测试
采样数 $S$ 和先验注入位置等设计选择缺乏充分消融

评分¶

新颖性: ⭐⭐⭐⭐ 类条件分布建模+双向对齐的框架设计有创意
实验充分度: ⭐⭐⭐ 两个数据集、多基线，但消融略简单，缺乏可视化分析
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法推导完整
价值: ⭐⭐⭐⭐ 即插即用特性有广泛实用价值，代码开源