SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data¶

会议: CVPR 2025
arXiv: 2603.02505
代码: 待确认
领域: 分割 / 遥感
关键词: 多模态分割, 不完整模态, 语义原型, 自适应采样, 遥感图像

一句话总结¶

提出SGMA框架，通过语义引导融合(SGF)模块构建全局语义原型估计模态鲁棒性并自适应加权融合，以及模态感知采样(MAS)模块动态优先训练脆弱模态，解决遥感不完整多模态分割中的模态不平衡、类内变化和跨模态异质性三大挑战。

研究背景与动机¶

领域现状：遥感语义分割需要融合多种传感器数据（RGB、DSM、NIR、SAR），多模态语义分割(MSS)已成为利用多源互补信息增强场景理解的关键技术。
现有痛点：实际中常因传感器故障或覆盖不完整导致模态缺失，即不完整多模态语义分割(IMSS)。现有方法存在三个关键问题：(1) 模态不平衡——优势模态(如RGB)压制脆弱模态(如DSM、NIR)；(2) 类内变化大——同一类别的目标在尺度、形状、方向上差异巨大（如不同大小的建筑物，小建筑特征激活弱而稀疏）；(3) 跨模态异质性——不同模态产生冲突的语义响应（如屋顶和地面在RGB中颜色相似但DSM高度不同，地面和草地在DSM中高度相似但RGB颜色不同）。
核心矛盾：现有方法（对比学习、联合优化）要么过度对齐丢弃模态特有信息，要么偏向训练优势模态，而且基本忽略了类内变化和跨模态异质性问题。dropout方法无法为脆弱模态学到判别性表征；MAE方法聚焦低级重建而非高级语义；对比对齐强制跨模态一致性可能削弱模态特有特征。
本文要解决什么？ 如何在模态任意缺失时仍保持鲁棒的分割性能？同时处理模态不平衡、类内变化大和跨模态异质性三个问题。
切入角度：将多模态特征压缩为全局语义原型——类级别的中间表示既能减少类内方差，又能通过注意力机制衡量每个模态对每个类别的贡献，从而做鲁棒性感知的自适应融合。
核心idea一句话：用语义原型做跨模态桥梁估计模态鲁棒性并自适应融合，同时用鲁棒性分数反过来指导采样优先训练脆弱模态。

方法详解¶

整体框架¶

输入多模态遥感图像 \(\{I_m\}_{m\in\mathcal{M}}\)，共享权重编码器 \(F\) 从每个模态独立提取4个尺度的特征。训练时特征同时经过SGF和MAS两个分支，生成 \(\hat{S}_{\text{SGF}}\) 和 \(\hat{S}_{\text{MAS}}\) 联合优化。推理时只保留SGF分支。两个模块都是即插即用的，可搭配不同backbone。

关键设计¶

语义引导融合 (SGF):
做什么：将多模态特征压缩为全局语义原型，用原型估计每个模态的鲁棒性，自适应加权融合
核心思路：包含四个子组件：(a) Modality-specific Projector (MP)——用多尺度深度卷积(11×11, 7×7, 3×3)将模态特征映射到统一语义空间；(b) Class-aware Semantic Filter (CSF)——共享1×1卷积压缩通道到类别数K，提取类级表示；(c) Spatial Perceptron (SP)——用全局语义原型 \(p_{se}^{i,k}\) 作为query、多模态特征作为key/value做多头注意力，减少类内方差；(d) Robustness Perceptron (RP)——以语义引导特征 \(f_{se}^i\) 为query做注意力，同时得到融合特征和每个模态的鲁棒性分数
设计动机：语义原型作为类级别的中间锚点，将像素直接关联到语义质心，减少类内方差。RP用语义引导特征而非原始特征作为query，使注意力权重反映类别依赖的鲁棒性（如DSM对结构类别高分，NIR对植被类别高分）
模态感知采样 (MAS):
做什么：根据SGF的鲁棒性分数动态调整训练采样概率，优先采样脆弱模态
核心思路：对鲁棒性分数取倒数归一化 \(\hat{r}_m^i = \frac{1/r_m^i}{\sum_{m'}(1/r_{m'}^i)}\)，鲁棒性越低的模态采样概率越高。通过增加脆弱模态的训练频率，单独对其特征进行独立训练
设计动机：解耦脆弱模态训练，避免优势模态通过梯度压制脆弱模态的学习。不需要模态特定的架构修改，通过采样策略即可实现平衡
全局语义原型构建:
做什么：从所有模态的特征中提取类级别的全局表征
核心思路：\(\{p_{se}^{i,k}\}_{k=1}^K = [\{c_m^i\}_{m\in\mathcal{M}}] \otimes [\{f_{m\to se}^i\}_{m\in\mathcal{M}}]^T\)，其中 \(c_m^i\) 是CSF压缩后的类别权重，通过矩阵乘法得到每个类的全局语义原型
设计动机：综合所有模态的信息构建原型，原型具有全局感受野，能增强类别一致性，超越局部特征的局限

损失函数 / 训练策略¶

\(\mathcal{L}_{\text{IMSS}} = \lambda_{\text{seg}} \mathcal{L}_{\text{seg}}(\hat{S}_{\text{SGF}}, S) + \lambda_{\text{seg}} \mathcal{L}_{\text{seg}}(\hat{S}_{\text{MAS}}, S) + \lambda_{\text{con}} \sum \mathcal{L}_{\text{con}}(f_m, f_{m'})\)

训练时通过modality dropout模拟模态缺失，SGF和MAS两个分支联合优化；推理时只用SGF分支。

实验关键数据¶

主实验¶

在3个遥感数据集上验证（ISPRS、DFC2023及另一个），跨越7种模态组合，2个backbone：

数据集(Pvt-v2-b2)	指标	SGMA	之前SOTA(MAGIC)	平均提升
ISPRS mIoU	Average	87.84	77.37	+10.47
ISPRS mIoU	Last-1(最差组合)	70.36	45.14	+25.22
ISPRS F1	Average	83.51→全组合	81.39	+2.12
ISPRS F1	Last-1	57.05	34.34	+22.71

关键对比——单模态DSM（Pvt-v2-b2）：SGMA 70.36 vs MAGIC 45.14 (+25.22)，说明SGMA极大提升了脆弱模态的独立性能。

消融实验¶

配置	关键指标	说明
Baseline	-	无SGF无MAS
+ SGF only	显著提升	语义原型融合的效果
+ MAS only	中等提升	采样重平衡的效果
+ SGF + MAS	最优	两者互补
SP组件去除	下降	验证类内方差减少的贡献
RP组件去除	下降	验证鲁棒性估计的贡献

关键发现¶

SGMA在脆弱模态单独使用时提升最大（DSM单模态提升25+点），说明MAS有效增强了脆弱模态的表征
在完整模态下也有提升（Top-1提升0.35点），说明SGF的语义融合也改善了完整场景
跨backbone一致有效（Pvt-v2-b2和ResNet-50）
即插即用设计：SGF和MAS两个模块可独立或联合使用

亮点与洞察¶

语义原型的双重作用：既作为类级别锚点减少类内方差，又通过注意力权重量化模态鲁棒性——一个机制解决两个问题
鲁棒性闭环：SGF估计鲁棒性→MAS用鲁棒性指导采样→脆弱模态学习增强→SGF更准确估计鲁棒性，形成良性循环
Last-1提升显著：最差模态组合的性能是IMSS的关键瓶颈，SGMA在这个指标上提升超过20个点，说明真正解决了脆弱模态问题

局限性 / 可改进方向¶

仅在遥感场景验证，未测试医学影像、自动驾驶等其他多模态场景
语义原型计算和双分支训练增加了计算开销
推理时丢弃MAS分支，但MAS的训练信号是否能更有效地传递到SGF值得探索
类别数K较小时原型效果好，但类别数很大时（如100+类）原型的区分力可能下降

评分¶

新颖性: ⭐⭐⭐⭐ 语义原型做鲁棒性估计和采样指导是新颖的组合
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多backbone、多模态组合、充分消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述详细
价值: ⭐⭐⭐⭐ 遥感IMSS场景的实用方案，脆弱模态提升巨大