SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation¶
会议: ICCV 2025
arXiv: 2507.12857
代码: https://github.com/HuangShiqi128/SCORE (有)
领域: 遥感/地球观测
关键词: 开放词汇实例分割, 遥感, 场景上下文, 视觉语言模型, 跨数据集泛化
一句话总结¶
提出SCORE框架,通过引入区域上下文(RAI)和全局上下文适配(GCA)两个模块,将遥感专用CLIP的多粒度场景知识注入到开放词汇实例分割pipeline中,在多个遥感数据集上的跨数据集评估中平均mAP超越前SOTA 5.53%。
背景与动机¶
遥感实例分割是地球观测中的基础任务,广泛用于灾害监测、城市发展和农业规划。现有方法主要在封闭词汇设定下进行训练和评估,模型只能识别训练集中出现过的类别,无法泛化到新类别或跨数据集迁移。这严重限制了在多变的真实地球观测场景中的实用性。
虽然自然图像领域的开放词汇(OV)分割已有大量工作(如FC-CLIP、ODISE),但直接迁移到遥感场景效果差,原因有三:(1) 遥感图像景观多样、季节变化大;(2) 鸟瞰视角下物体小、模糊,形状相似的物体(如车和船都是细长形)难以区分;(3) 通用CLIP的文本嵌入缺乏遥感领域知识,类内变化大、分辨率差异大。
一个关键观察是:在遥感中,物体与其周围环境高度相关。船在海岸边、车在停车场里、飞机在机场旁——这种区域场景上下文是人类识别航空物体的重要线索,但现有OV分割模型并没有利用。
核心问题¶
如何在开放词汇设定下,利用遥感图像中物体与周围环境的相关性(场景上下文),提升跨数据集的遥感实例分割性能?具体需要解决两个子问题:(1) 视觉端——如何让类别嵌入融入物体周围的区域上下文以增强物体可区分性;(2) 文本端——如何让通用CLIP的文本嵌入获得遥感领域的全局知识以增强分类器的适应性。
方法详解¶
整体框架¶
SCORE包含三个分支: - 实例分支(橙色):使用冻结的ConvNeXt-Large CLIP作为backbone提取特征,通过Mask2Former生成300个query的类别嵌入和mask proposal - 语义分支(黄色):冻结的CLIP文本编码器,将类别名插入遥感prompt模板(如"satellite imagery of ..."),编码得到文本嵌入作为分类器 - 上下文分支(蓝色):冻结的RemoteCLIP ViT-L/14提取多粒度场景上下文——[CLS] token作为全局上下文,patch embedding作为空间密集特征
三个分支通过RAI和GCA模块交互:RAI将区域上下文注入类别嵌入,GCA将全局上下文注入文本嵌入。最终分类由增强后的类别嵌入和文本嵌入的匹配完成。
关键设计¶
- Region-Aware Integration (RAI):核心思想是利用物体周围环境来增强物体表示。分三步:
- 自适应区域形成:基于预测的mask proposal,通过可学习膨胀因子δ(初始化为1)控制max-pooling核大小 \(k=3+\text{clamp}(\delta,0,10)\),自适应扩展mask以覆盖周围区域
- 区域上下文提取:用扩展后的mask在RemoteCLIP的最终层patch embedding上做加权池化,获得该物体周围区域的语义特征
-
区域上下文融合:通过 \(l\) 层Transformer Layer,将区域上下文(乘以温度系数λ)注入类别嵌入,得到region-aware的类别嵌入 \(\hat{\mathbf{V}}\)
-
Global Context Adaptation (GCA):解决通用CLIP文本嵌入缺乏遥感知识的问题。将RemoteCLIP的[CLS] token(即全局上下文)作为query,通过多头交叉注意力与文本嵌入T交互: \(\hat{\mathbf{T}} = \text{MHA}(W_Q \mathbf{F}_{\text{CLS}}, W_K \mathbf{T}, W_V \mathbf{T})\)。这样文本嵌入保留了OV泛化能力的同时被注入了遥感视觉先验,弥合了通用域和遥感域之间的语义鸿沟。
-
开放词汇推理:采用in-vocabulary和out-vocabulary分类的集成策略。in-vocabulary用学到的region-aware类别嵌入配合domain-adapted分类器;out-vocabulary仍用通用CLIP(实验证明通用CLIP的泛化能力优于遥感CLIP,与遥感CLIP训练数据量远小于通用CLIP的400M有关)。
损失函数 / 训练策略¶
- 使用AdamW优化器,学习率 \(1.25 \times 10^{-5}\)
- 消融实验训练50个epoch,batch size=2,输入resize到512×512
- 在单卡L40S GPU上训练
- 遥感CLIP(RemoteCLIP、一般CLIP)的权重均冻结,只训练RAI和GCA模块与Mask2Former部分
实验关键数据¶
训练在iSAID上,跨数据集评估(mAP):
| 数据集 | 指标 | 本文(SCORE) | 之前SOTA(FC-CLIP) | 提升 |
|---|---|---|---|---|
| NWPU | mAP | 67.59 | 60.67 | +6.92 |
| SOTA | mAP | 42.57 | 33.62 | +8.95 |
| FAST | mAP | 13.67 | 11.88 | +1.79 |
| SIOR | mAP | 30.90 | 26.79 | +4.11 |
| 平均 | mAP | 38.68 | 33.24 | +5.44 |
训练在SIOR上,跨数据集评估(mAP):
| 数据集 | 指标 | 本文(SCORE) | 之前SOTA(ZoRI) | 提升 |
|---|---|---|---|---|
| NWPU | mAP | 69.17 | 59.77 | +9.40 |
| SOTA | mAP | 23.68 | 20.26 | +3.42 |
| FAST | mAP | 10.33 | 9.58 | +0.75 |
| iSAID | mAP | 27.15 | 23.46 | +3.69 |
| 平均 | mAP | 32.59 | 28.27 | +4.32 |
此外,SCORE在开放词汇遥感语义分割任务上也达到了SOTA,平均mIoU 29.76对比GSNet的28.63(+1.13%),在FLAIR数据集上提升高达9.62%。
消融实验要点¶
- RAI和GCA互补:单独使用RAI平均提升约3.66%(iSAID训练),单独使用GCA平均提升约3.42%,两者结合达到最佳5.43%。说明视觉端和文本端的增强是互补的
- 遥感CLIP选择:RemoteCLIP > GeoRSCLIP > SkyCLIP > 通用CLIP,说明领域专用预训练对场景上下文提取至关重要
- RAI中的上下文类型:区域上下文 > [CLS] token > 中间层patch embedding。[CLS] token有全局偏差(关注主导成分),中间层patch强调纹理引入噪声,区域上下文自适应聚焦目标周围
- GCA注入方式:多头交叉注意力(MHA) >> 加法 > 拼接。直接加法和拼接因视觉-文本嵌入空间不对齐而破坏跨模态对齐
- OV分类器选择:通用CLIP > 遥感CLIP,因遥感CLIP预训练数据(0.8M~5M)远少于通用CLIP(400M),泛化力不足
亮点¶
- 观察独到:遥感中物体与环境的相关性(船在水边、车在路上)这一先验被形式化为可学习的区域上下文,思路清晰且有说服力
- 双端增强:同时从视觉端(RAI增强类别嵌入)和文本端(GCA增强分类器)入手,且两者互补性得到实验验证
- 自适应膨胀机制:可学习的膨胀因子让区域范围随训练自动调整,避免了手动设计超参的困扰
- 首次提出遥感OV实例分割基准:定义了系统性的跨数据集评估协议(在一个数据集训练,在其他4个数据集测试),填补了领域空白
- 通用性:框架也适用于语义分割任务,展示了方法的泛化潜力
局限性 / 可改进方向¶
- 计算开销:额外的RemoteCLIP分支增加了推理成本,论文未报告速度对比
- 遥感CLIP泛化不足:实验表明遥感CLIP在OV分类上不如通用CLIP,根本原因是遥感图文对数据量不够。若未来遥感CLIP训练数据扩大,整个framework的上限可能进一步提升
- 数据集规模有限:评估数据集最大37个类别,距离真实开放世界的类别多样性仍有差距
- mask质量:依赖Mask2Former的mask proposal质量,对于极端小物体(如FAST数据集中的细粒度37类),提升有限(mAP仅13.67)
- 潜在方向:可以将区域上下文与SAM结合,或引入更多粒度的上下文(如多尺度区域),也可以将此思路迁移到遥感目标检测
与相关工作的对比¶
- vs FC-CLIP:FC-CLIP用冻结的CNN CLIP作为backbone做通用OV分割,但完全不考虑遥感领域知识,也不利用物体-环境相关性。SCORE在其基础上引入遥感CLIP的场景上下文,平均mAP提升5%以上
- vs ZoRI (AAAI 2025):同一作者组的前作,做零样本遥感实例分割但限于zero-shot设定(需要同时提供类别属性)。SCORE是更通用的open-vocabulary设定,无需额外属性信息,且性能更好
- vs GSNet/OVRS:这两篇做OV遥感语义分割,GSNet融合通用和遥感backbone的特征,OVRS考虑物体朝向。但它们都局限于语义分割,SCORE首次将OV扩展到实例分割,且在语义分割任务上也能超越它们
启发与关联¶
- 与频率提示SAM的关联:unified_freq_prompt_sam 中提到遥感是SAM的困难场景之一。SCORE的区域上下文思路可以与SAM结合——用RemoteCLIP的区域特征作为SAM的prompt来改善遥感分割
- 跨域泛化的思路通用:RAI的"利用物体周围环境来辅助识别"思路不限于遥感,在医学图像中(器官与周围组织的关系)、自动驾驶中(车辆与道路/停车场的关系)也可能有效
- 遥感OV检测方向:SCORE只做了分割,SCORE的区域上下文思路可以直接迁移到遥感OV目标检测任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次定义OV遥感实例分割任务并给出系统方案,区域上下文的利用方式直觉且有效,但各模块(可学习膨胀、交叉注意力注入)本身并非全新技术
- 实验充分度: ⭐⭐⭐⭐ 两个训练集×四个测试集的完整cross-dataset评估,消融覆盖全面(模块、VLM选择、上下文类型、注入方式、OV分类器),还扩展到语义分割验证通用性。缺少推理速度对比
- 写作质量: ⭐⭐⭐⭐ 动机用Figure 1的ship/car例子讲得很清楚,结构工整,各消融都有分析。部分notation有inconsistency(正文有时称GCA有时称VCA)
- 价值: ⭐⭐⭐⭐ 建立了新任务的benchmark和strong baseline,对遥感OV分割领域有开拓意义,区域上下文思路可迁移到其他遥感下游任务