Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos¶
会议: CVPR2025
arXiv: 2603.00881
代码: GitHub
领域: medical_imaging
关键词: semi-supervised learning, video segmentation, coronary angiography, SAM3, optical flow, uncertainty
一句话总结¶
提出 SMART 框架,基于 SAM3 的教师-学生结构结合文本概念提示、置信度感知一致性正则化和双流时序一致性,实现 X 光冠脉造影视频的半监督血管分割。
研究背景与动机¶
冠状动脉疾病(CAD)是全球最主要的死亡原因,X 光冠状动脉造影(XCA)是临床金标准。精确分割冠脉是自动诊断的基础,但标注成本极高(逐帧像素级标注)。
现有方法的不足: 1. SAM 系列直接应用困难:SAM/SAM2 依赖几何提示(点、框),跨机构泛化能力有限 2. 忽略时序信息:静态图像方法无法利用 XCA 视频的时序动态 3. 伪标签不可靠:冠脉图像低对比度、低信噪比,教师模型输出噪声大 4. SAM3 的优势:SAM3 引入概念提示(语义文本描述),可避免对几何先验的依赖
方法详解¶
阶段一:文本驱动分割微调¶
在有标注数据 D_l 上微调教师 SAM3。保留 SAM3 架构,仅微调图像编码器、文本编码器和检测器的文本提示相关参数。用 Dice + BCE 联合损失优化。
阶段二:运动感知半监督学习¶
置信度感知一致性正则化 (CCR)¶
解决教师输出不可靠的核心问题: 1. 对每帧注入 N=8 个独立高斯噪声扰动,获取 N 个教师预测 2. 计算平均预测 \(\bar{P}\) 作为可靠伪标签 3. 计算不确定度权重 \(\mathcal{U}\)(N 个预测的方差) 4. 置信度感知一致性损失在高不确定度区域施加更强监督,推动模型改进不确定区域的预测
双流时序一致性 (DSTC)¶
利用光流建模血管时序动态: 1. 用预训练 SEA-RAFT 估计前向和后向光流 2. 运动一致性损失 L_opti:通过 mask warping 确保相邻帧预测的像素级对齐 3. 流一致性损失 L_coh:惩罚边界点偏离血管主体运动的偏差,帮助区分前景/背景
总损失¶
推理时仅使用学生模型。
实验关键数据¶
在 XCAV(111 视频/59 患者)和 CAVSA(1061 视频/121 患者)上评估,仅用 16 个标注视频:
| 方法 | XCAV DSC | XCAV clDice | CAVSA DSC | CAVSA clDice |
|---|---|---|---|---|
| UNet (监督) | 70.80 | 69.24 | 64.19 | 70.27 |
| SAM3 (直接) | 42.73 | 34.51 | 30.82 | 30.14 |
| CPC-SAM | 77.90 | 79.15 | 77.90 | 78.28 |
| Denver | 73.30 | 70.40 | 76.53 | 79.17 |
| SMART | 84.39 | 83.01 | 91.00 | 97.73 |
提升幅度显著: - XCAV: DSC 比 CPC-SAM 高 6.49% - CAVSA: 仅用 1.5% 标注数据,DSC 提升 13.1%
消融实验(关键组件对 XCAV/CAVSA 的影响):
| 配置 | XCAV DSC | XCAV clDice | CAVSA DSC | CAVSA clDice |
|---|---|---|---|---|
| TPT+CCR (无DSTC) | 82.38 | 79.84 | 78.87 | 81.17 |
| TPT+DSTC (无CCR) | 76.71 | 79.86 | 25.82 | 32.65 |
| CCR+DSTC (无TPT) | 76.24 | 78.53 | 47.77 | 50.37 |
| 完整 SMART | 84.39 | 83.01 | 91.00 | 97.73 |
去掉 CCR 后 CAVSA DSC 暴跌至 25.82%,说明不可靠教师输出的正则化是必须的。噪声扰动数量实验表明 N=8 为最佳选择(DSC 84.39 vs N=2 的 83.59)。
亮点¶
- SAM3 概念提示的巧妙应用:用文本语义描述替代几何提示,避免了点/框提示对形状先验的依赖,跨机构泛化能力显著优于点/框提示方案
- 置信度感知正则化设计精巧:不确定度加权的反直觉设计——越不确定的区域给予越强监督,推动模型改善薄弱环节,而非简单忽略不确定区域
- 双流光流一致性:前向+后向双向流缓解单向流的确认偏差,运动一致性+流一致性分别保障像素对齐和前景/背景区分
- 极少标注下的强性能:16 个标注视频(每个仅 1-2 帧标注)即可达到 SOTA
- CADICA 跨域泛化:在无标注的第三方数据集上定性展示了良好的跨域分割能力
- 代码开源:完整代码已发布,可复现性强
局限性¶
- 教师模型在半监督训练中冻结(不更新),无法从无标注数据中持续改进伪标签质量,与可更新教师方案相比可能损失了进一步提升空间
- 光流估计依赖预训练 SEA-RAFT,光流质量直接影响时序一致性的有效性,且未对光流精度做敏感性分析
- 仅在冠脉造影场景验证,未扩展到其他医学视频分割任务(如内窎镜、超声视频)
- CADICA 数据集仅做定性可视化,无定量指标,跨域泛化的统计显著性未知
- 推理速度和模型大小未报告,SAM3 作为基础模型的计算开销较大
- 训练仅 6k 迭代,batch size 4,规模较小,扩展到更大数据的表现未知
- 双流时序一致性假设 XCA 视频中血管拓扑不变,这在较长序列中可能不成立
评分¶
- 新颖性: 4/5 — SAM3 概念提示 + 不确定度感知 + 双流光流的组合新颖实用
- 实验充分度: 4/5 — 三数据集+详尽消融+多基线对比,结果说服力强
- 写作质量: 3/5 — 整体清晰但部分公式符号不统一,代码已开源加分
- 价值: 4/5 — 极少标注下的强性能对临床部署有实际意义