A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement¶

会议: CVPR 2026
arXiv: 2603.06167
代码: 待确认
领域: 医学图像 / 语义分割 / 半监督学习
关键词: 乳腺超声分割, VLM伪标签, 双教师框架, 不确定性融合, 对比学习

一句话总结¶

通过外观描述驱动VLM免训练生成伪标签，再由双教师不确定性融合+反向对比学习细化，仅2.5%标注即可逼近全监督性能。

背景与动机¶

乳腺超声（BUS）分割中，全监督方法依赖大量像素级标注，标注成本极高。半监督方法虽能缓解标注瓶颈，但在极少标注（如2.5%）下教师模型欠训练，产生的伪标签质量差、结构不一致，且常见的强-弱数据增强策略是为RGB自然图设计的，不适合灰度且含斑点噪声的超声图像。VLM（如Grounding DINO + SAM）可提供外部伪标签，但医学术语提示（如"tumor"、"high density"）在BUS上零样本定位效果不稳定，因为VLM缺乏医学域语义。作者观察到BUS病灶具有一致的外观特征（暗色椭圆/圆形区域），可以用简单的自然语言外观描述绕过域鸿沟。

核心问题¶

极少标注下BUS伪标签不稳定且结构碎片化，VLM医学提示迁移困难。如何在不进行额外训练的前提下获取高质量伪标签，并在半监督框架中有效利用？

方法详解¶

整体框架¶

分两阶段：(1) APPG——用外观提示驱动Grounding DINO检测+SAM分割，免训练生成伪标签；(2) 伪标签细化——先用伪标签预训练静态教师捕获粗结构先验，再在双教师半监督框架中通过不确定性熵加权融合（UEWF）和自适应反向对比学习（AURCL）精炼标签。学生模型由标注数据的监督损失、融合伪标签的无监督损失和对比损失联合训练。

关键设计¶

APPG（外观提示伪标签生成）: 用LLM（GPT-5）将医学特征转译为简单外观描述（如"dark oval"、"dark round"、"dark lobulated"），输入Grounding DINO获取边界框，再送SAM生成分割mask。无需训练，利用自然图和医学图之间的外观共性完成跨域迁移。通过面积阈值（>1%）过滤无效伪标签。
UEWF（不确定性-熵加权融合）: 静态教师T_A（用VLM伪标签预训练后冻结）和动态教师T_B（EMA更新）分别生成软伪标签，用Shannon熵量化逐像素不确定性，经patch-wise平均池化（k=14）平滑后取倒数作为置信度权重，加权融合两路伪标签作为学生监督信号。
AURCL（自适应反向对比学习）: 对学生模型的低置信度像素（通过动态top-K阈值选取），将预测概率翻转（1-p），生成"反向视图"。在patch级别提取原始和反向视图的特征，用InfoNCE对比损失拉近同位置正对、推远不同位置负对，迫使网络在模糊边界区域学习更具判别性的表征。

损失函数 / 训练策略¶

总损失 L = L_s + λ_u·L_u + λ_c·L_c，其中L_s和L_u均为BCE+Dice，L_c为AURCL对比损失。λ_u=1, λ_c=0.5。使用ResNet-34骨干，输入224×224，Adam优化器（momentum 0.995），ReduceLROnPlateau调度，batch size 8（标注/未标注各半），训练100 epoch。不使用数据增强。

实验关键数据¶

数据集	标注比例	指标	本文	之前SOTA	提升
BUSI	2.5%	Dice	72.72%	58.93%(BCP)	+13.79%
BUSI	10%	Dice	77.40%	75.06%(Text-semiseg)	+2.34%
BUSI	20%	Dice	78.38%	75.83%(Text-semiseg)	+2.55%
UBB	2.5%	Dice	75.75%	59.76%(Text-semiseg)	+15.99%
UBB	10%	Dice	75.95%	74.70%(Text-semiseg)	+1.25%
UBB	20%	Dice	78.15%	75.55%(Text-semiseg)	+2.60%
BUSI全监督	100%	Dice	81.68%	—	—

UBB数据集2.5%标注下，本文75.75% Dice甚至超过100%标注的全监督U-Net（74.81%）。

消融实验要点¶

APPG贡献最大（+14.09% Dice），提供稳定的外部结构先验
双教师框架在APPG基础上再提升+3.83% Dice，静态教师提供全局先验，动态教师细化局部
AURCL提升+0.47% Dice，增强边界判别
UEWF额外+0.52% Dice，patch-wise平滑比pixel-wise更鲁棒（71.89→72.72%）
与VLM-based baseline对比：MediClipV2仅28.74% Dice，UniversalSeg 30.68%，本文72.72%，大幅领先

亮点¶

仅需一句简单外观描述即可跨域迁移VLM到任意医学模态，范式可泛化到皮肤镜、甲状腺超声、内镜息肉等
2.5%标注即超越全监督，极端低标注场景下优势巨大
反向对比学习关注不确定区域的思路新颖，与常规对比学习只关注可靠区域形成互补

局限性 / 可改进方向¶

依赖外观描述的可迁移性：当病灶外观高度异质时（如浸润性病灶形态多变），简单描述可能不够
未探索更强的VLM（如Grounded SAM 2），升级VLM可能进一步提升伪标签质量
仅在二分类（病灶/背景）上验证，多类分割场景未涉及

与相关工作的对比¶

PH-Net (CVPR'24): 通过patch-wise hardness挖掘困难区域，但仍依赖模型自身伪标签，2.5%下Dice仅55.13%，远低于本文72.72%
Text-semiseg (MICCAI'25): 引入文本驱动多平面视觉交互增强伪标签，10%/20%下有竞争力（75.06%/75.83%），但2.5%下仅56.85%，说明文本引导在极少标注下不如外观提示+VLM的免训练方案
CSC-PA (CVPR'25): 跨样本原型对齐增强语义一致性，2.5%仅58.78%，与本文差距明显

启发与关联¶

外观描述作为跨域桥梁的思路可推广到其他医学少标注场景，值得关注
双教师不确定性融合机制可考虑引入其他半监督检测/分割任务

评分¶

新颖性: ⭐⭐⭐⭐ 外观提示驱动VLM免训练生成伪标签的思路简洁且有效
实验充分度: ⭐⭐⭐⭐⭐ 四个数据集、三种标注比例、充分消融、跨模态泛化可视化
写作质量: ⭐⭐⭐⭐ 方法描述清晰，流程图直观，消融逐步递进
价值: ⭐⭐⭐⭐ 2.5%标注超越全监督的实用价值高，范式可推广