跳转至

📚 AI Paper Notes

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation¶

会议: CVPR2026 arXiv: 2603.11492 代码: Jwei-Z/SPEGC-for-MIS 领域: 医学图像分割 关键词: 持续测试时自适应, 图聚类, 语义提示, 最优传输, 域偏移, 视网膜/息肉分割

一句话总结¶

提出 SPEGC 框架，通过语义提示增强特征 + 可微分图聚类求解器，将原始相似度矩阵精炼为高阶结构表示，用于指导医学图像分割模型在持续变化的目标域上自适应，有效缓解误差累积与灾难性遗忘。

研究背景与动机¶

临床部署的域偏移难题：医学图像因采集设备、操作者、扫描协议不同，导致预训练模型在新目标域上性能严重退化，无法直接用于临床。
CTTA 场景更贴近现实：传统 TTA 假设静态目标域，而真实临床数据是连续到达的分布不断变化的流，持续测试时自适应 (CTTA) 更具实际意义。
现有 CTTA 方法依赖不可靠监督信号：基于熵最小化或像素级/实例级信号的方法在严重域偏移下容易产生误导性梯度，触发"自增强误差累积"的恶性循环。
Prompt 方法表达力受限：冻结骨干网络仅学习输入空间的轻量 prompt，核心参数未更新，性能天花板较低。
局部特征对噪声敏感：域偏移下未标注测试样本的局部特征极易受噪声和风格变化干扰，直接计算的相似度矩阵不可靠。
缺乏高阶结构监督：现有方法未充分利用数据内部的聚类级结构信息来引导自适应，决策边界无法动态调整。

方法详解¶

整体框架¶

SPEGC 由两个核心模块组成：语义提示特征增强 (SPFE) 和 可微分图聚类求解器 (DGCS)。流程为：

用 ResNet 骨干提取局部特征，通过 MC Dropout 估计不确定性，采样低不确定性前景节点
SPFE 利用解耦的共性/异质性提示池向局部特征注入全局语境信息
增强特征入队构建伪 mini-batch，计算全局相似度矩阵
DGCS 将边稀疏化重构为最优传输问题，端到端精炼相似度矩阵
精炼后的结构表示通过图一致性损失 + 聚类损失联合指导模型自适应

关键设计¶

SPFE — 语义提示特征增强：

用注意力池化将节点特征聚合为全局查询 \(\hat{q}_i\)
异质性提示池 \(P_{HE}\)：标准 Softmax 注意力检索与查询匹配的域特异性信息，捕获类别区分模式
共性提示池 \(P_{CO}\)：反向注意力 (ReLU 截断负匹配分数) 检索与查询不匹配的跨域共享语义，保留核心判别知识
两种提示作为解耦的上下文偏置加到原始节点特征上：\(V_i^* = V_i + p_{CO}(i) + p_{HE}(i)\)

DGCS — 可微分图聚类求解器：

用可学习投影 \(W_q, W_k\) 计算全局相似度矩阵 \(S\)（无 Softmax，保留高置信信号）
基于节点密度 \(D(v_i)\) 和 Sigmoid 门控构建有向边相似度矩阵 \(S'\)
核心洞察：\(Z\) 个连通分量的生成森林恰好包含 \(k=V-Z\) 条边，据此设定全局稀疏化预算
将边选择建模为二元最优传输问题，用 Sinkhorn 算法迭代求解熵正则化传输计划 \(\Gamma^*\)
\(\Gamma^*\) 的第二列重塑为精炼边相似度矩阵 \(S^\star\)

损失函数¶

\[L = L_G + \lambda L_C\]

图一致性损失 \(L_G\)：若两节点在 \(S^\star\) 中结构相似，则强制其语义预测一致（KL 散度 + stop-gradient）
聚类损失 \(L_C\)：约束共性提示池，使 batch 内所有图像的共性提示在语义空间中彼此靠近（余弦距离），显式保留跨域共享知识
\(\lambda=0.2\)

实验¶

数据集与设置¶

视网膜眼底分割 (OD/OC)：5 个公开数据集 (RIM-ONE, REFUGE, ORIGA, REFUGE-Test, Drishti-GS)，交叉域评估
息肉分割：4 个公开数据集 (BKAI-IGH, CVC-ClinicDB, ETIS, Kvasir)
骨干：ResNet-50 + ResUNet-50，ImageNet 预训练
在线单样本自适应，无标签，单卡 NVIDIA 3090

主要结果¶

方法	OD/OC 平均 DSC	息肉平均 DSC
No Adapt	72.75	71.49
SAR (ICLR'23)	73.44	69.21
VPTTA (CVPR'24)	73.40	73.40
NC-TTT (CVPR'24)	79.23	75.44
GraTa (AAAI'25)	78.66	76.24
TTDG (CVPR'25)	82.88	76.20
SPEGC (Ours)	84.37	78.27

消融实验¶

配置	平均 DSC
No Adapt (基线)	72.75
+ 图聚类	74.64
+ MC Dropout 不确定性采样	76.52
+ 仅异质性提示 (无约束)	75.39 (↓)
+ 仅共性提示 + \(L_C\)	81.07
+ 共性 + 异质性提示 (完整)	84.37

关键发现¶

结构驱动优于熵最小化：SAR 等熵方法在息肉任务上甚至低于 No Adapt 基线，因"隐蔽目标"导致过度自信的错误预测；SPEGC 依赖数据内部结构避开此陷阱
长期 CTTA 稳定性优异：5 轮连续自适应实验中，SPEGC 达到最高平均 DSC (83.10%)，性能退化仅 1.27%，兼顾抗遗忘和抗误差累积
共性提示是关键：单独加异质性提示反而降低性能 (75.39 < 76.52)，说明无约束提示引入噪声；共性提示 + 聚类损失带来 4.55% 的显著提升
特征池大小的效率-性能权衡：池大小 7 时 DSC 最高 (85.24%) 但 FLOPs 增至 21.7G；选择池大小 3 (84.37%, 5.8G FLOPs) 为最优平衡点

亮点¶

将图聚类引入 CTTA，用高阶结构信息替代不可靠的像素级/熵信号，思路新颖
共性/异质性提示池的解耦设计巧妙：反向注意力捕获跨域共享知识，标准注意力获取域特异信息
将边稀疏化建模为最优传输问题并用 Sinkhorn 求解，实现端到端可微分图聚类
在两个医学分割基准上全面超越 SOTA，长期 CTTA 实验充分验证了对灾难性遗忘和误差累积的鲁棒性

局限性¶

DGCS 的相似度矩阵计算复杂度为 \(O(V^2)\)，特征池增大时 FLOPs 急剧增长（池大小 15 时达 120G），限制了可扩展性
聚类数 \(Z\) 为人工超参数，不同任务需要调参
仅在 ResNet-50/ResUNet-50 上验证，未测试更强骨干 (如 ViT/Swin) 或更大规模数据集
单样本在线自适应场景，未探讨 mini-batch 到达的场景
共性提示池依赖聚类损失约束，该损失假设连续数据共享核心语义，在极端域偏移下可能不成立

相关工作¶

基于聚类的分割：Yu et al. 将交叉注意力重构为聚类求解器；Liang et al. 提出循环交叉注意力迭代聚类；Ding et al. 将聚类扩展到 3D 体数据。但这些方法是静态域内的后处理，无法利用动态图结构指导自适应
CTTA 方法：SAR (熵过滤)、DomainAdaptor (BN 统计)、VPTTA (视觉提示 + BN 对齐)、NC-TTT (噪声估计)、GraTa (梯度对齐)、TTDG (图匹配 + 预训练先验)。SPEGC 与 TTDG 最相关，但 TTDG 依赖源域原型对齐，SPEGC 完全从目标数据内部结构出发

评分¶

新颖性: ⭐⭐⭐⭐ — 提示解耦 + 最优传输图聚类的组合在 CTTA 领域是新的
实验充分度: ⭐⭐⭐⭐ — 两个基准、多域交叉、长期 CTTA、消融、超参分析、t-SNE 可视化
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式推导完整，动机阐述充分
价值: ⭐⭐⭐⭐ — 对医学影像部署场景有实际意义，但计算开销是落地障碍