Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos¶

会议: CVPR2025
arXiv: 2603.00881
代码: GitHub
领域: medical_imaging
关键词: semi-supervised learning, video segmentation, coronary angiography, SAM3, optical flow, uncertainty

一句话总结¶

提出 SMART 框架，基于 SAM3 的教师-学生结构结合文本概念提示、置信度感知一致性正则化和双流时序一致性，实现 X 光冠脉造影视频的半监督血管分割。

研究背景与动机¶

冠状动脉疾病（CAD）是全球最主要的死亡原因，X 光冠状动脉造影（XCA）是临床金标准。精确分割冠脉是自动诊断的基础，但标注成本极高（逐帧像素级标注）。

现有方法的不足： 1. SAM 系列直接应用困难：SAM/SAM2 依赖几何提示（点、框），跨机构泛化能力有限 2. 忽略时序信息：静态图像方法无法利用 XCA 视频的时序动态 3. 伪标签不可靠：冠脉图像低对比度、低信噪比，教师模型输出噪声大 4. SAM3 的优势：SAM3 引入概念提示（语义文本描述），可避免对几何先验的依赖

方法详解¶

阶段一：文本驱动分割微调¶

在有标注数据 D_l 上微调教师 SAM3。保留 SAM3 架构，仅微调图像编码器、文本编码器和检测器的文本提示相关参数。用 Dice + BCE 联合损失优化。

阶段二：运动感知半监督学习¶

置信度感知一致性正则化 (CCR)¶

解决教师输出不可靠的核心问题： 1. 对每帧注入 N=8 个独立高斯噪声扰动，获取 N 个教师预测 2. 计算平均预测 \(\bar{P}\) 作为可靠伪标签 3. 计算不确定度权重 \(\mathcal{U}\)（N 个预测的方差） 4. 置信度感知一致性损失在高不确定度区域施加更强监督，推动模型改进不确定区域的预测

\[\mathcal{L}_{conf} = \frac{\sum \mathcal{D}(x,y) \cdot \mathcal{U}(x,y)}{\sum \mathcal{U}(x,y) + N\eta} + \frac{\beta}{N} \sum \mathcal{U}(x,y)\]

双流时序一致性 (DSTC)¶

利用光流建模血管时序动态： 1. 用预训练 SEA-RAFT 估计前向和后向光流 2. 运动一致性损失 L_opti：通过 mask warping 确保相邻帧预测的像素级对齐 3. 流一致性损失 L_coh：惩罚边界点偏离血管主体运动的偏差，帮助区分前景/背景

总损失¶

\[\mathcal{L}_{all} = \lambda_{Dice}\mathcal{L}_{Dice} + \lambda_{Bce}\mathcal{L}_{Bce} + \lambda_{conf}\mathcal{L}_{conf} + \lambda_{opti}\mathcal{L}_{opti} + \lambda_{coh}\mathcal{L}_{coh}\]

推理时仅使用学生模型。

实验关键数据¶

在 XCAV（111 视频/59 患者）和 CAVSA（1061 视频/121 患者）上评估，仅用 16 个标注视频：

方法	XCAV DSC	XCAV clDice	CAVSA DSC	CAVSA clDice
UNet (监督)	70.80	69.24	64.19	70.27
SAM3 (直接)	42.73	34.51	30.82	30.14
CPC-SAM	77.90	79.15	77.90	78.28
Denver	73.30	70.40	76.53	79.17
SMART	84.39	83.01	91.00	97.73

提升幅度显著： - XCAV: DSC 比 CPC-SAM 高 6.49% - CAVSA: 仅用 1.5% 标注数据，DSC 提升 13.1%

消融实验（关键组件对 XCAV/CAVSA 的影响）：

配置	XCAV DSC	XCAV clDice	CAVSA DSC	CAVSA clDice
TPT+CCR (无DSTC)	82.38	79.84	78.87	81.17
TPT+DSTC (无CCR)	76.71	79.86	25.82	32.65
CCR+DSTC (无TPT)	76.24	78.53	47.77	50.37
完整 SMART	84.39	83.01	91.00	97.73

去掉 CCR 后 CAVSA DSC 暴跌至 25.82%，说明不可靠教师输出的正则化是必须的。噪声扰动数量实验表明 N=8 为最佳选择（DSC 84.39 vs N=2 的 83.59）。

亮点¶

SAM3 概念提示的巧妙应用：用文本语义描述替代几何提示，避免了点/框提示对形状先验的依赖，跨机构泛化能力显著优于点/框提示方案
置信度感知正则化设计精巧：不确定度加权的反直觉设计——越不确定的区域给予越强监督，推动模型改善薄弱环节，而非简单忽略不确定区域
双流光流一致性：前向+后向双向流缓解单向流的确认偏差，运动一致性+流一致性分别保障像素对齐和前景/背景区分
极少标注下的强性能：16 个标注视频（每个仅 1-2 帧标注）即可达到 SOTA
CADICA 跨域泛化：在无标注的第三方数据集上定性展示了良好的跨域分割能力
代码开源：完整代码已发布，可复现性强

局限性¶

教师模型在半监督训练中冻结（不更新），无法从无标注数据中持续改进伪标签质量，与可更新教师方案相比可能损失了进一步提升空间
光流估计依赖预训练 SEA-RAFT，光流质量直接影响时序一致性的有效性，且未对光流精度做敏感性分析
仅在冠脉造影场景验证，未扩展到其他医学视频分割任务（如内窎镜、超声视频）
CADICA 数据集仅做定性可视化，无定量指标，跨域泛化的统计显著性未知
推理速度和模型大小未报告，SAM3 作为基础模型的计算开销较大
训练仅 6k 迭代，batch size 4，规模较小，扩展到更大数据的表现未知
双流时序一致性假设 XCA 视频中血管拓扑不变，这在较长序列中可能不成立

评分¶

新颖性: 4/5 — SAM3 概念提示 + 不确定度感知 + 双流光流的组合新颖实用
实验充分度: 4/5 — 三数据集+详尽消融+多基线对比，结果说服力强
写作质量: 3/5 — 整体清晰但部分公式符号不统一，代码已开源加分
价值: 4/5 — 极少标注下的强性能对临床部署有实际意义