A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement¶
会议: CVPR 2026
arXiv: 2603.06167
代码: 待确认
领域: 医学图像 / 语义分割 / 半监督学习
关键词: 乳腺超声分割, VLM伪标签, 双教师框架, 不确定性融合, 对比学习
一句话总结¶
通过外观描述驱动VLM免训练生成伪标签,再由双教师不确定性融合+反向对比学习细化,仅2.5%标注即可逼近全监督性能。
背景与动机¶
乳腺超声(BUS)分割中,全监督方法依赖大量像素级标注,标注成本极高。半监督方法虽能缓解标注瓶颈,但在极少标注(如2.5%)下教师模型欠训练,产生的伪标签质量差、结构不一致,且常见的强-弱数据增强策略是为RGB自然图设计的,不适合灰度且含斑点噪声的超声图像。VLM(如Grounding DINO + SAM)可提供外部伪标签,但医学术语提示(如"tumor"、"high density")在BUS上零样本定位效果不稳定,因为VLM缺乏医学域语义。作者观察到BUS病灶具有一致的外观特征(暗色椭圆/圆形区域),可以用简单的自然语言外观描述绕过域鸿沟。
核心问题¶
极少标注下BUS伪标签不稳定且结构碎片化,VLM医学提示迁移困难。如何在不进行额外训练的前提下获取高质量伪标签,并在半监督框架中有效利用?
方法详解¶
整体框架¶
分两阶段:(1) APPG——用外观提示驱动Grounding DINO检测+SAM分割,免训练生成伪标签;(2) 伪标签细化——先用伪标签预训练静态教师捕获粗结构先验,再在双教师半监督框架中通过不确定性熵加权融合(UEWF)和自适应反向对比学习(AURCL)精炼标签。学生模型由标注数据的监督损失、融合伪标签的无监督损失和对比损失联合训练。
关键设计¶
- APPG(外观提示伪标签生成): 用LLM(GPT-5)将医学特征转译为简单外观描述(如"dark oval"、"dark round"、"dark lobulated"),输入Grounding DINO获取边界框,再送SAM生成分割mask。无需训练,利用自然图和医学图之间的外观共性完成跨域迁移。通过面积阈值(>1%)过滤无效伪标签。
- UEWF(不确定性-熵加权融合): 静态教师T_A(用VLM伪标签预训练后冻结)和动态教师T_B(EMA更新)分别生成软伪标签,用Shannon熵量化逐像素不确定性,经patch-wise平均池化(k=14)平滑后取倒数作为置信度权重,加权融合两路伪标签作为学生监督信号。
- AURCL(自适应反向对比学习): 对学生模型的低置信度像素(通过动态top-K阈值选取),将预测概率翻转(1-p),生成"反向视图"。在patch级别提取原始和反向视图的特征,用InfoNCE对比损失拉近同位置正对、推远不同位置负对,迫使网络在模糊边界区域学习更具判别性的表征。
损失函数 / 训练策略¶
总损失 L = L_s + λ_u·L_u + λ_c·L_c,其中L_s和L_u均为BCE+Dice,L_c为AURCL对比损失。λ_u=1, λ_c=0.5。使用ResNet-34骨干,输入224×224,Adam优化器(momentum 0.995),ReduceLROnPlateau调度,batch size 8(标注/未标注各半),训练100 epoch。不使用数据增强。
实验关键数据¶
| 数据集 | 标注比例 | 指标 | 本文 | 之前SOTA | 提升 |
|---|---|---|---|---|---|
| BUSI | 2.5% | Dice | 72.72% | 58.93%(BCP) | +13.79% |
| BUSI | 10% | Dice | 77.40% | 75.06%(Text-semiseg) | +2.34% |
| BUSI | 20% | Dice | 78.38% | 75.83%(Text-semiseg) | +2.55% |
| UBB | 2.5% | Dice | 75.75% | 59.76%(Text-semiseg) | +15.99% |
| UBB | 10% | Dice | 75.95% | 74.70%(Text-semiseg) | +1.25% |
| UBB | 20% | Dice | 78.15% | 75.55%(Text-semiseg) | +2.60% |
| BUSI全监督 | 100% | Dice | 81.68% | — | — |
UBB数据集2.5%标注下,本文75.75% Dice甚至超过100%标注的全监督U-Net(74.81%)。
消融实验要点¶
- APPG贡献最大(+14.09% Dice),提供稳定的外部结构先验
- 双教师框架在APPG基础上再提升+3.83% Dice,静态教师提供全局先验,动态教师细化局部
- AURCL提升+0.47% Dice,增强边界判别
- UEWF额外+0.52% Dice,patch-wise平滑比pixel-wise更鲁棒(71.89→72.72%)
- 与VLM-based baseline对比:MediClipV2仅28.74% Dice,UniversalSeg 30.68%,本文72.72%,大幅领先
亮点¶
- 仅需一句简单外观描述即可跨域迁移VLM到任意医学模态,范式可泛化到皮肤镜、甲状腺超声、内镜息肉等
- 2.5%标注即超越全监督,极端低标注场景下优势巨大
- 反向对比学习关注不确定区域的思路新颖,与常规对比学习只关注可靠区域形成互补
局限性 / 可改进方向¶
- 依赖外观描述的可迁移性:当病灶外观高度异质时(如浸润性病灶形态多变),简单描述可能不够
- 未探索更强的VLM(如Grounded SAM 2),升级VLM可能进一步提升伪标签质量
- 仅在二分类(病灶/背景)上验证,多类分割场景未涉及
与相关工作的对比¶
- PH-Net (CVPR'24): 通过patch-wise hardness挖掘困难区域,但仍依赖模型自身伪标签,2.5%下Dice仅55.13%,远低于本文72.72%
- Text-semiseg (MICCAI'25): 引入文本驱动多平面视觉交互增强伪标签,10%/20%下有竞争力(75.06%/75.83%),但2.5%下仅56.85%,说明文本引导在极少标注下不如外观提示+VLM的免训练方案
- CSC-PA (CVPR'25): 跨样本原型对齐增强语义一致性,2.5%仅58.78%,与本文差距明显
启发与关联¶
- 外观描述作为跨域桥梁的思路可推广到其他医学少标注场景,值得关注
- 双教师不确定性融合机制可考虑引入其他半监督检测/分割任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 外观提示驱动VLM免训练生成伪标签的思路简洁且有效
- 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集、三种标注比例、充分消融、跨模态泛化可视化
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,流程图直观,消融逐步递进
- 价值: ⭐⭐⭐⭐ 2.5%标注超越全监督的实用价值高,范式可推广