RS2-SAM2: Customized SAM2 for Referring Remote Sensing Image Segmentation¶

会议: AAAI 2026
arXiv: 2503.07266
代码: https://github.com/rongfu-dsb/RS2-SAM2
领域: 分割
关键词: SAM2, 遥感图像, 指称分割, 多模态融合, 密集提示

一句话总结¶

提出 RS2-SAM2 框架，通过双向层次融合模块将文本信息注入 SAM2 图像编码过程，并设计伪掩码提示生成器为 SAM2 提供密集提示，在遥感指称分割任务上取得 SOTA。

研究背景与动机¶

遥感指称图像分割（RRSIS）旨在根据自然语言描述从航拍图像中分割目标对象。与自然图像的指称分割相比，遥感场景面临独特挑战：目标空间尺度多样、场景上下文复杂、目标边界模糊，且前景-背景对比度低，使得目标难以区分。

SAM2 在自然图像分割上表现出色，但直接应用于 RRSIS 存在两大瓶颈：

视觉-语言对齐不足：SAM2 在遥感场景中效果下降，因为遥感图像的目标可区分性低。现有适配方法如 SAM2-Adapter 仅做单模态调整，缺乏层次化的视觉-语言信息交互，无法细粒度理解文本信息。

缺乏文本引导的提示生成：SAM2 不具备文本提示集成能力，现有的 EVF-SAM 通过联合编码和 MLP 生成稀疏提示，但稀疏提示在遥感场景中不足以处理细微或不明显的目标，无法提供像素级的精确引导。

作者的核心思想：（1）在 SAM2 图像编码过程中同时进行遥感特征适配和文本对齐；（2）生成密集的伪掩码提示替代稀疏提示，提供像素级位置信息。

方法详解¶

整体框架¶

RS2-SAM2 由四部分组成：联合编码器（Union Encoder）、双向层次融合模块（BHFM）、掩码提示生成器（MPG） 和 SAM2。输入遥感图像和文本描述，联合编码器生成对齐的视觉/文本嵌入和多模态 CLS token；BHFM 嵌入 SAM2 编码器中逐层融合文本和视觉信息；MPG 利用视觉嵌入和 CLS token 生成伪掩码作为 SAM2 的密集提示；最终 SAM2 解码器输出高精度分割掩码。

关键设计¶

1. 联合编码器（Union Encoder）¶

采用 BEiT-3 作为联合编码器，同时编码视觉和文本输入
图像被分为不重叠的 patch，投影为 $P_v \in \mathbb{R}^{N_p \times D}$；文本通过 XLM-Roberta 分词
拼接多模态表示 $U_0 = [V_0; T_0] \in \mathbb{R}^{(N_p+N_t+1) \times D}$，经多模态融合后分解为视觉 CLS token $V_{cls}$、视觉嵌入 $V$ 和文本嵌入 $T$
设计动机：通过联合编码实现视觉和文本在语义空间的早期对齐，为后续模块提供良好基础

2. 双向层次融合模块（BHFM）¶

这是本文的核心创新模块，嵌入在 SAM2 图像编码器的每一层中：

降维与交叉注意力：SAM2 图像特征 $F_i$ 通过线性层降维，文本特征 $T_i$ 也投影到匹配维度，然后进行双向交叉注意力交互：

\[F_i'' = \text{MHCA}(F_i', T_i') + F_i'$$ $$T_i'' = \text{MHCA}(T_i', F_i') + T_i'\]

带权重的文本保护：为保持文本完整性，文本特征通过权重系数 $\alpha_t = 0.2$ 加权融合：$T_{i+1} = (1-\alpha_t)T_i + \alpha_t \cdot \text{Linear}(T_i'')$
视觉特征增强：视觉特征经跳跃连接后，分别通过 MLP 分支和线性分支处理，再以权重 $\alpha_i = 0.5$ 进行加权融合
编码后高层次引导：编码完成后，原始文本特征 $T$ 通过交叉注意力进一步引导视觉特征 $F$，生成文本引导的层次特征 $F_{en}$

设计动机：逐层注入文本信息使 SAM2 对指称目标更敏感；双向交互让视觉和文本特征相互增强；从全局到局部的层次化交互有助于细粒度理解。

3. 掩码提示生成器（MPG）¶

多模态 CLS token $V_{cls}$ 作为 query，视觉嵌入 $V$ 作为 key-value 进行交叉注意力计算
交互结果与 $V_{cls}$ 逐元素相乘，进一步对齐多模态 token 与视觉信息
视觉嵌入重塑为二维特征图，$V_{cls}$ 经线性层后广播到相同尺寸并逐元素相乘
通过 MLP 生成伪掩码 $M_p \in \mathbb{R}^{H_u/p \times W_u/p}$，上采样后作为 SAM2 的密集提示

设计动机：联合编码生成的视觉嵌入与文本嵌入已具有良好的语义对齐，利用这一性质结合 CLS token 可生成高质量的先验掩码，提供像素级引导信息。

损失函数 / 训练策略¶

\[\mathcal{L} = \lambda_{ce}\mathcal{L}_{ce} + \lambda_{dice}\mathcal{L}_{dice} + \lambda_{tbl}\mathcal{L}_{tbl}\]

$\mathcal{L}_{ce}$：交叉熵损失（$\lambda_{ce}=1$）
$\mathcal{L}_{dice}$：DICE 损失（$\lambda_{dice}=0.1$）
$\mathcal{L}_{tbl}$：文本引导边界损失（$\lambda_{tbl}=0.2$），是本文设计的新损失：
- 计算水平和垂直方向相邻像素差的绝对值作为边界梯度
- 将文本嵌入抽象为句子嵌入，通过线性层降维为标量，作为文本引导的边界权重
- 用 MSE 度量预测掩码和GT掩码在文本权重引导下的边界相似度

训练设置：8 × RTX 4090，RefSegRS 60 epochs，RRSIS-D 40 epochs，AdamW 优化器，batch size 1。SAM2 使用 SAM2-Hiera-Large 预训练权重，联合编码器使用 BEiT-3-Large。

实验关键数据¶

主实验¶

RefSegRS 数据集（Test）：

方法	Pr@0.5	Pr@0.7	Pr@0.9	oIoU	mIoU
LAVT	51.84	17.34	2.09	71.86	47.40
RMSIN	79.20	42.98	3.25	75.72	62.58
FIANet	84.09	61.86	7.10	78.32	68.67
RS2-SAM2	84.31	70.89	21.19	80.87	73.90

RRSIS-D 数据集（Test）：

方法	Pr@0.5	Pr@0.7	Pr@0.9	oIoU	mIoU
RMSIN	74.26	55.93	24.53	77.79	64.20
FIANet	74.46	56.31	24.13	76.91	64.01
RS2-SAM2	77.56	61.76	29.73	78.99	66.72

消融实验¶

配置	Pr@0.5	mIoU	oIoU	说明
Baseline (SAM2+Union Encoder)	35.17	36.64	55.51	基线
+ $\mathcal{L}_{tbl}$	39.79	38.63	57.36	边界损失有效
+ $\mathcal{L}_{tbl}$ + MPG	71.00	60.20	70.89	掩码提示贡献巨大（+21.57% mIoU）
+ $\mathcal{L}_{tbl}$ + BHFM	81.89	68.71	78.36	融合模块贡献最大（+30.08% mIoU）
+ 全部（RS2-SAM2）	84.31	73.90	80.87	三者互补

BHFM 结构消融：

配置	mIoU	说明
Linear（无文本交互）	68.19	纯适配不够
Uni（单向增强）	70.10	缺乏反馈
Bi（双向增强）	73.90	最优

关键发现¶

BHFM 是贡献最大的组件，单独使用即可将 mIoU 从 38.63% 提升到 68.71%
MPG 提供的密集提示（+21.57% mIoU）远优于 EVF-SAM 的稀疏提示方式
双向交互优于单向交互（73.90% vs 70.10%），验证了视觉-文本双向增强的必要性
编码内（BL）和编码后（BC）的 BHFM 都不可缺少，去掉任一均导致显著下降
文本引导边界损失对 Pr@0.9 等高精度阈值提升尤为明显

亮点与洞察¶

层次化双向融合的设计思路独到：在 SAM2 编码器的每一层都注入文本信息，实现从全局到局部的渐进式对齐，而非仅在最后融合
密集提示替代稀疏提示的策略在遥感场景中特别有效：遥感目标经常模糊不清，稀疏点/框提示无法充分引导分割
文本引导边界损失巧妙利用文本语义来加权边界约束，针对遥感目标前景-背景对比度低的问题

局限与展望¶

需要两个编码器（BEiT-3 + SAM2 Hiera），输入尺寸分别为 224 和 1024，计算开销较大
仅在 RRSIS 数据集上验证，未探索更广泛的遥感任务（如变化检测、实例分割）
联合编码器的选择固定为 BEiT-3，未探索其他多模态编码器的效果
未使用 SAM2 的记忆机制，无法处理视频级遥感分割

评分¶

新颖性: ⭐⭐⭐⭐ （层次化双向融合+密集提示生成器的组合设计有新意，但各组件单独看并非全新）
实验充分度: ⭐⭐⭐⭐⭐ （两个数据集，全面的消融实验，覆盖多个阈值指标）
写作质量: ⭐⭐⭐⭐ （结构清晰，图表丰富）
价值: ⭐⭐⭐⭐ （为 SAM2 在遥感指称分割的适配提供了有效方案，实验提升显著）