SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data¶
会议: CVPR 2025
arXiv: 2603.02505
代码: 待确认
领域: 分割 / 遥感
关键词: 多模态分割, 不完整模态, 语义原型, 自适应采样, 遥感图像
一句话总结¶
提出SGMA框架,通过语义引导融合(SGF)模块构建全局语义原型估计模态鲁棒性并自适应加权融合,以及模态感知采样(MAS)模块动态优先训练脆弱模态,解决遥感不完整多模态分割中的模态不平衡、类内变化和跨模态异质性三大挑战。
研究背景与动机¶
- 领域现状:遥感语义分割需要融合多种传感器数据(RGB、DSM、NIR、SAR),多模态语义分割(MSS)已成为利用多源互补信息增强场景理解的关键技术。
- 现有痛点:实际中常因传感器故障或覆盖不完整导致模态缺失,即不完整多模态语义分割(IMSS)。现有方法存在三个关键问题:(1) 模态不平衡——优势模态(如RGB)压制脆弱模态(如DSM、NIR);(2) 类内变化大——同一类别的目标在尺度、形状、方向上差异巨大(如不同大小的建筑物,小建筑特征激活弱而稀疏);(3) 跨模态异质性——不同模态产生冲突的语义响应(如屋顶和地面在RGB中颜色相似但DSM高度不同,地面和草地在DSM中高度相似但RGB颜色不同)。
- 核心矛盾:现有方法(对比学习、联合优化)要么过度对齐丢弃模态特有信息,要么偏向训练优势模态,而且基本忽略了类内变化和跨模态异质性问题。dropout方法无法为脆弱模态学到判别性表征;MAE方法聚焦低级重建而非高级语义;对比对齐强制跨模态一致性可能削弱模态特有特征。
- 本文要解决什么? 如何在模态任意缺失时仍保持鲁棒的分割性能?同时处理模态不平衡、类内变化大和跨模态异质性三个问题。
- 切入角度:将多模态特征压缩为全局语义原型——类级别的中间表示既能减少类内方差,又能通过注意力机制衡量每个模态对每个类别的贡献,从而做鲁棒性感知的自适应融合。
- 核心idea一句话:用语义原型做跨模态桥梁估计模态鲁棒性并自适应融合,同时用鲁棒性分数反过来指导采样优先训练脆弱模态。
方法详解¶
整体框架¶
输入多模态遥感图像 \(\{I_m\}_{m\in\mathcal{M}}\),共享权重编码器 \(F\) 从每个模态独立提取4个尺度的特征。训练时特征同时经过SGF和MAS两个分支,生成 \(\hat{S}_{\text{SGF}}\) 和 \(\hat{S}_{\text{MAS}}\) 联合优化。推理时只保留SGF分支。两个模块都是即插即用的,可搭配不同backbone。
关键设计¶
- 语义引导融合 (SGF):
- 做什么:将多模态特征压缩为全局语义原型,用原型估计每个模态的鲁棒性,自适应加权融合
- 核心思路:包含四个子组件:(a) Modality-specific Projector (MP)——用多尺度深度卷积(11×11, 7×7, 3×3)将模态特征映射到统一语义空间;(b) Class-aware Semantic Filter (CSF)——共享1×1卷积压缩通道到类别数K,提取类级表示;(c) Spatial Perceptron (SP)——用全局语义原型 \(p_{se}^{i,k}\) 作为query、多模态特征作为key/value做多头注意力,减少类内方差;(d) Robustness Perceptron (RP)——以语义引导特征 \(f_{se}^i\) 为query做注意力,同时得到融合特征和每个模态的鲁棒性分数
-
设计动机:语义原型作为类级别的中间锚点,将像素直接关联到语义质心,减少类内方差。RP用语义引导特征而非原始特征作为query,使注意力权重反映类别依赖的鲁棒性(如DSM对结构类别高分,NIR对植被类别高分)
-
模态感知采样 (MAS):
- 做什么:根据SGF的鲁棒性分数动态调整训练采样概率,优先采样脆弱模态
- 核心思路:对鲁棒性分数取倒数归一化 \(\hat{r}_m^i = \frac{1/r_m^i}{\sum_{m'}(1/r_{m'}^i)}\),鲁棒性越低的模态采样概率越高。通过增加脆弱模态的训练频率,单独对其特征进行独立训练
-
设计动机:解耦脆弱模态训练,避免优势模态通过梯度压制脆弱模态的学习。不需要模态特定的架构修改,通过采样策略即可实现平衡
-
全局语义原型构建:
- 做什么:从所有模态的特征中提取类级别的全局表征
- 核心思路:\(\{p_{se}^{i,k}\}_{k=1}^K = [\{c_m^i\}_{m\in\mathcal{M}}] \otimes [\{f_{m\to se}^i\}_{m\in\mathcal{M}}]^T\),其中 \(c_m^i\) 是CSF压缩后的类别权重,通过矩阵乘法得到每个类的全局语义原型
- 设计动机:综合所有模态的信息构建原型,原型具有全局感受野,能增强类别一致性,超越局部特征的局限
损失函数 / 训练策略¶
\(\mathcal{L}_{\text{IMSS}} = \lambda_{\text{seg}} \mathcal{L}_{\text{seg}}(\hat{S}_{\text{SGF}}, S) + \lambda_{\text{seg}} \mathcal{L}_{\text{seg}}(\hat{S}_{\text{MAS}}, S) + \lambda_{\text{con}} \sum \mathcal{L}_{\text{con}}(f_m, f_{m'})\)
训练时通过modality dropout模拟模态缺失,SGF和MAS两个分支联合优化;推理时只用SGF分支。
实验关键数据¶
主实验¶
在3个遥感数据集上验证(ISPRS、DFC2023及另一个),跨越7种模态组合,2个backbone:
| 数据集(Pvt-v2-b2) | 指标 | SGMA | 之前SOTA(MAGIC) | 平均提升 |
|---|---|---|---|---|
| ISPRS mIoU | Average | 87.84 | 77.37 | +10.47 |
| ISPRS mIoU | Last-1(最差组合) | 70.36 | 45.14 | +25.22 |
| ISPRS F1 | Average | 83.51→全组合 | 81.39 | +2.12 |
| ISPRS F1 | Last-1 | 57.05 | 34.34 | +22.71 |
关键对比——单模态DSM(Pvt-v2-b2):SGMA 70.36 vs MAGIC 45.14 (+25.22),说明SGMA极大提升了脆弱模态的独立性能。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Baseline | - | 无SGF无MAS |
| + SGF only | 显著提升 | 语义原型融合的效果 |
| + MAS only | 中等提升 | 采样重平衡的效果 |
| + SGF + MAS | 最优 | 两者互补 |
| SP组件去除 | 下降 | 验证类内方差减少的贡献 |
| RP组件去除 | 下降 | 验证鲁棒性估计的贡献 |
关键发现¶
- SGMA在脆弱模态单独使用时提升最大(DSM单模态提升25+点),说明MAS有效增强了脆弱模态的表征
- 在完整模态下也有提升(Top-1提升0.35点),说明SGF的语义融合也改善了完整场景
- 跨backbone一致有效(Pvt-v2-b2和ResNet-50)
- 即插即用设计:SGF和MAS两个模块可独立或联合使用
亮点与洞察¶
- 语义原型的双重作用:既作为类级别锚点减少类内方差,又通过注意力权重量化模态鲁棒性——一个机制解决两个问题
- 鲁棒性闭环:SGF估计鲁棒性→MAS用鲁棒性指导采样→脆弱模态学习增强→SGF更准确估计鲁棒性,形成良性循环
- Last-1提升显著:最差模态组合的性能是IMSS的关键瓶颈,SGMA在这个指标上提升超过20个点,说明真正解决了脆弱模态问题
局限性 / 可改进方向¶
- 仅在遥感场景验证,未测试医学影像、自动驾驶等其他多模态场景
- 语义原型计算和双分支训练增加了计算开销
- 推理时丢弃MAS分支,但MAS的训练信号是否能更有效地传递到SGF值得探索
- 类别数K较小时原型效果好,但类别数很大时(如100+类)原型的区分力可能下降
相关工作与启发¶
- vs MAGIC: 将模态分为robust/fragile组联合优化+余弦对齐,但对齐可能削弱模态特有信息。SGMA通过语义原型做class-level的自适应融合,保留模态特异性
- vs IMLT: 对比学习+masked pretraining,但对比学习的过度对齐问题。SGMA用语义原型替代对比对齐
- vs MuSS/M3L: 早期方法性能大幅落后,说明简单dropout或分组策略不够
评分¶
- 新颖性: ⭐⭐⭐⭐ 语义原型做鲁棒性估计和采样指导是新颖的组合
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多backbone、多模态组合、充分消融
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ 遥感IMSS场景的实用方案,脆弱模态提升巨大