SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation¶

会议: ICCV 2025
arXiv: 2507.12857
代码: https://github.com/HuangShiqi128/SCORE (有)
领域: 遥感/地球观测
关键词: 开放词汇实例分割, 遥感, 场景上下文, 视觉语言模型, 跨数据集泛化

一句话总结¶

提出SCORE框架，通过引入区域上下文（RAI）和全局上下文适配（GCA）两个模块，将遥感专用CLIP的多粒度场景知识注入到开放词汇实例分割pipeline中，在多个遥感数据集上的跨数据集评估中平均mAP超越前SOTA 5.53%。

背景与动机¶

遥感实例分割是地球观测中的基础任务，广泛用于灾害监测、城市发展和农业规划。现有方法主要在封闭词汇设定下进行训练和评估，模型只能识别训练集中出现过的类别，无法泛化到新类别或跨数据集迁移。这严重限制了在多变的真实地球观测场景中的实用性。

虽然自然图像领域的开放词汇（OV）分割已有大量工作（如FC-CLIP、ODISE），但直接迁移到遥感场景效果差，原因有三：(1) 遥感图像景观多样、季节变化大；(2) 鸟瞰视角下物体小、模糊，形状相似的物体（如车和船都是细长形）难以区分；(3) 通用CLIP的文本嵌入缺乏遥感领域知识，类内变化大、分辨率差异大。

一个关键观察是：在遥感中，物体与其周围环境高度相关。船在海岸边、车在停车场里、飞机在机场旁——这种区域场景上下文是人类识别航空物体的重要线索，但现有OV分割模型并没有利用。

核心问题¶

如何在开放词汇设定下，利用遥感图像中物体与周围环境的相关性（场景上下文），提升跨数据集的遥感实例分割性能？具体需要解决两个子问题：(1) 视觉端——如何让类别嵌入融入物体周围的区域上下文以增强物体可区分性；(2) 文本端——如何让通用CLIP的文本嵌入获得遥感领域的全局知识以增强分类器的适应性。

方法详解¶

整体框架¶

SCORE包含三个分支： - 实例分支（橙色）：使用冻结的ConvNeXt-Large CLIP作为backbone提取特征，通过Mask2Former生成300个query的类别嵌入和mask proposal - 语义分支（黄色）：冻结的CLIP文本编码器，将类别名插入遥感prompt模板（如"satellite imagery of ..."），编码得到文本嵌入作为分类器 - 上下文分支（蓝色）：冻结的RemoteCLIP ViT-L/14提取多粒度场景上下文——[CLS] token作为全局上下文，patch embedding作为空间密集特征

三个分支通过RAI和GCA模块交互：RAI将区域上下文注入类别嵌入，GCA将全局上下文注入文本嵌入。最终分类由增强后的类别嵌入和文本嵌入的匹配完成。

关键设计¶

Region-Aware Integration (RAI)：核心思想是利用物体周围环境来增强物体表示。分三步：
自适应区域形成：基于预测的mask proposal，通过可学习膨胀因子δ（初始化为1）控制max-pooling核大小 \(k=3+\text{clamp}(\delta,0,10)\)，自适应扩展mask以覆盖周围区域
区域上下文提取：用扩展后的mask在RemoteCLIP的最终层patch embedding上做加权池化，获得该物体周围区域的语义特征
区域上下文融合：通过 \(l\) 层Transformer Layer，将区域上下文（乘以温度系数λ）注入类别嵌入，得到region-aware的类别嵌入 \(\hat{\mathbf{V}}\)
Global Context Adaptation (GCA)：解决通用CLIP文本嵌入缺乏遥感知识的问题。将RemoteCLIP的[CLS] token（即全局上下文）作为query，通过多头交叉注意力与文本嵌入T交互： \(\hat{\mathbf{T}} = \text{MHA}(W_Q \mathbf{F}_{\text{CLS}}, W_K \mathbf{T}, W_V \mathbf{T})\)。这样文本嵌入保留了OV泛化能力的同时被注入了遥感视觉先验，弥合了通用域和遥感域之间的语义鸿沟。
开放词汇推理：采用in-vocabulary和out-vocabulary分类的集成策略。in-vocabulary用学到的region-aware类别嵌入配合domain-adapted分类器；out-vocabulary仍用通用CLIP（实验证明通用CLIP的泛化能力优于遥感CLIP，与遥感CLIP训练数据量远小于通用CLIP的400M有关）。

损失函数 / 训练策略¶

使用AdamW优化器，学习率 \(1.25 \times 10^{-5}\)
消融实验训练50个epoch，batch size=2，输入resize到512×512
在单卡L40S GPU上训练
遥感CLIP（RemoteCLIP、一般CLIP）的权重均冻结，只训练RAI和GCA模块与Mask2Former部分

实验关键数据¶

训练在iSAID上，跨数据集评估（mAP）：

数据集	指标	本文(SCORE)	之前SOTA(FC-CLIP)	提升
NWPU	mAP	67.59	60.67	+6.92
SOTA	mAP	42.57	33.62	+8.95
FAST	mAP	13.67	11.88	+1.79
SIOR	mAP	30.90	26.79	+4.11
平均	mAP	38.68	33.24	+5.44

训练在SIOR上，跨数据集评估（mAP）：

数据集	指标	本文(SCORE)	之前SOTA(ZoRI)	提升
NWPU	mAP	69.17	59.77	+9.40
SOTA	mAP	23.68	20.26	+3.42
FAST	mAP	10.33	9.58	+0.75
iSAID	mAP	27.15	23.46	+3.69
平均	mAP	32.59	28.27	+4.32

此外，SCORE在开放词汇遥感语义分割任务上也达到了SOTA，平均mIoU 29.76对比GSNet的28.63（+1.13%），在FLAIR数据集上提升高达9.62%。

消融实验要点¶

RAI和GCA互补：单独使用RAI平均提升约3.66%（iSAID训练），单独使用GCA平均提升约3.42%，两者结合达到最佳5.43%。说明视觉端和文本端的增强是互补的
遥感CLIP选择：RemoteCLIP > GeoRSCLIP > SkyCLIP > 通用CLIP，说明领域专用预训练对场景上下文提取至关重要
RAI中的上下文类型：区域上下文 > [CLS] token > 中间层patch embedding。[CLS] token有全局偏差（关注主导成分），中间层patch强调纹理引入噪声，区域上下文自适应聚焦目标周围
GCA注入方式：多头交叉注意力(MHA) >> 加法 > 拼接。直接加法和拼接因视觉-文本嵌入空间不对齐而破坏跨模态对齐
OV分类器选择：通用CLIP > 遥感CLIP，因遥感CLIP预训练数据（0.8M~5M）远少于通用CLIP（400M），泛化力不足

亮点¶

观察独到：遥感中物体与环境的相关性（船在水边、车在路上）这一先验被形式化为可学习的区域上下文，思路清晰且有说服力
双端增强：同时从视觉端（RAI增强类别嵌入）和文本端（GCA增强分类器）入手，且两者互补性得到实验验证
自适应膨胀机制：可学习的膨胀因子让区域范围随训练自动调整，避免了手动设计超参的困扰
首次提出遥感OV实例分割基准：定义了系统性的跨数据集评估协议（在一个数据集训练，在其他4个数据集测试），填补了领域空白
通用性：框架也适用于语义分割任务，展示了方法的泛化潜力

局限性 / 可改进方向¶

计算开销：额外的RemoteCLIP分支增加了推理成本，论文未报告速度对比
遥感CLIP泛化不足：实验表明遥感CLIP在OV分类上不如通用CLIP，根本原因是遥感图文对数据量不够。若未来遥感CLIP训练数据扩大，整个framework的上限可能进一步提升
数据集规模有限：评估数据集最大37个类别，距离真实开放世界的类别多样性仍有差距
mask质量：依赖Mask2Former的mask proposal质量，对于极端小物体（如FAST数据集中的细粒度37类），提升有限（mAP仅13.67）
潜在方向：可以将区域上下文与SAM结合，或引入更多粒度的上下文（如多尺度区域），也可以将此思路迁移到遥感目标检测

与相关工作的对比¶

vs FC-CLIP：FC-CLIP用冻结的CNN CLIP作为backbone做通用OV分割，但完全不考虑遥感领域知识，也不利用物体-环境相关性。SCORE在其基础上引入遥感CLIP的场景上下文，平均mAP提升5%以上
vs ZoRI (AAAI 2025)：同一作者组的前作，做零样本遥感实例分割但限于zero-shot设定（需要同时提供类别属性）。SCORE是更通用的open-vocabulary设定，无需额外属性信息，且性能更好
vs GSNet/OVRS：这两篇做OV遥感语义分割，GSNet融合通用和遥感backbone的特征，OVRS考虑物体朝向。但它们都局限于语义分割，SCORE首次将OV扩展到实例分割，且在语义分割任务上也能超越它们

启发与关联¶

与频率提示SAM的关联：unified_freq_prompt_sam 中提到遥感是SAM的困难场景之一。SCORE的区域上下文思路可以与SAM结合——用RemoteCLIP的区域特征作为SAM的prompt来改善遥感分割
跨域泛化的思路通用：RAI的"利用物体周围环境来辅助识别"思路不限于遥感，在医学图像中（器官与周围组织的关系）、自动驾驶中（车辆与道路/停车场的关系）也可能有效
遥感OV检测方向：SCORE只做了分割，SCORE的区域上下文思路可以直接迁移到遥感OV目标检测任务

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义OV遥感实例分割任务并给出系统方案，区域上下文的利用方式直觉且有效，但各模块（可学习膨胀、交叉注意力注入）本身并非全新技术
实验充分度: ⭐⭐⭐⭐ 两个训练集×四个测试集的完整cross-dataset评估，消融覆盖全面（模块、VLM选择、上下文类型、注入方式、OV分类器），还扩展到语义分割验证通用性。缺少推理速度对比
写作质量: ⭐⭐⭐⭐ 动机用Figure 1的ship/car例子讲得很清楚，结构工整，各消融都有分析。部分notation有inconsistency（正文有时称GCA有时称VCA）
价值: ⭐⭐⭐⭐ 建立了新任务的benchmark和strong baseline，对遥感OV分割领域有开拓意义，区域上下文思路可迁移到其他遥感下游任务