✂️ 语义分割¶
📹 ICCV2025 · 共 5 篇
- CorrCLIP: Reconstructing Patch Correlations in CLIP for Open-Vocabulary Semantic Segmentation
-
揭示CLIP用于分割时patch间"类间相关性"是性能瓶颈的根本原因,提出CorrCLIP通过SAM限制patch交互范围(scope reconstruction)+DINO计算更一致的相似度值(value reconstruction)+空间/语义特征增强+SAM mask后处理,在8个benchmark上training-free方法平均mIoU从48.6%提升到53.6%。
- Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild
-
将reference-target图像对之间的对应关系表示为用扩散模型生成的伪视频序列,利用SAM2的iVOS能力进行分割,结合test-time轻量微调对齐几何变化,在跨域few-shot分割上比SOTA方法提升约5% mIoU,且无需meta-training。
- FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation
-
挑战OVSS中"平均80个模板"的默认做法,发现每个类别存在特定的"专家模板"(class-expert)远优于平均分类器,提出用预测熵无监督选择专家模板+融合专家预测的FLOSS方法,在不需要标签和训练的情况下一致提升现有OVSS方法。
- SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
-
针对SAM 2在长视频中因贪心选择策略导致的错误累积问题,提出一种training-free的约束树搜索记忆策略,维护多条分割路径并在视频级别选择最优结果,在9个VOS和3个VOT benchmark上平均提升3.7 J&F,长视频场景最高提升5.3。
- SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation
-
提出SCORE框架,通过引入区域上下文(RAI)和全局上下文适配(GCA)两个模块,将遥感专用CLIP的多粒度场景知识注入到开放词汇实例分割pipeline中,在多个遥感数据集上的跨数据集评估中平均mAP超越前SOTA 5.53%。