跳转至

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

会议: CVPR 2025
arXiv: 2603.02505
代码: 待确认
领域: 分割 / 遥感
关键词: 多模态分割, 不完整模态, 语义原型, 自适应采样, 遥感图像

一句话总结

提出SGMA框架,通过语义引导融合(SGF)模块构建全局语义原型估计模态鲁棒性并自适应加权融合,以及模态感知采样(MAS)模块动态优先训练脆弱模态,解决遥感不完整多模态分割中的模态不平衡、类内变化和跨模态异质性三大挑战。

研究背景与动机

  1. 领域现状:遥感语义分割需要融合多种传感器数据(RGB、DSM、NIR、SAR),多模态语义分割(MSS)已成为利用多源互补信息增强场景理解的关键技术。
  2. 现有痛点:实际中常因传感器故障或覆盖不完整导致模态缺失,即不完整多模态语义分割(IMSS)。现有方法存在三个关键问题:(1) 模态不平衡——优势模态(如RGB)压制脆弱模态(如DSM、NIR);(2) 类内变化大——同一类别的目标在尺度、形状、方向上差异巨大(如不同大小的建筑物,小建筑特征激活弱而稀疏);(3) 跨模态异质性——不同模态产生冲突的语义响应(如屋顶和地面在RGB中颜色相似但DSM高度不同,地面和草地在DSM中高度相似但RGB颜色不同)。
  3. 核心矛盾:现有方法(对比学习、联合优化)要么过度对齐丢弃模态特有信息,要么偏向训练优势模态,而且基本忽略了类内变化和跨模态异质性问题。dropout方法无法为脆弱模态学到判别性表征;MAE方法聚焦低级重建而非高级语义;对比对齐强制跨模态一致性可能削弱模态特有特征。
  4. 本文要解决什么? 如何在模态任意缺失时仍保持鲁棒的分割性能?同时处理模态不平衡、类内变化大和跨模态异质性三个问题。
  5. 切入角度:将多模态特征压缩为全局语义原型——类级别的中间表示既能减少类内方差,又能通过注意力机制衡量每个模态对每个类别的贡献,从而做鲁棒性感知的自适应融合。
  6. 核心idea一句话:用语义原型做跨模态桥梁估计模态鲁棒性并自适应融合,同时用鲁棒性分数反过来指导采样优先训练脆弱模态。

方法详解

整体框架

输入多模态遥感图像 \(\{I_m\}_{m\in\mathcal{M}}\),共享权重编码器 \(F\) 从每个模态独立提取4个尺度的特征。训练时特征同时经过SGF和MAS两个分支,生成 \(\hat{S}_{\text{SGF}}\)\(\hat{S}_{\text{MAS}}\) 联合优化。推理时只保留SGF分支。两个模块都是即插即用的,可搭配不同backbone。

关键设计

  1. 语义引导融合 (SGF):
  2. 做什么:将多模态特征压缩为全局语义原型,用原型估计每个模态的鲁棒性,自适应加权融合
  3. 核心思路:包含四个子组件:(a) Modality-specific Projector (MP)——用多尺度深度卷积(11×11, 7×7, 3×3)将模态特征映射到统一语义空间;(b) Class-aware Semantic Filter (CSF)——共享1×1卷积压缩通道到类别数K,提取类级表示;(c) Spatial Perceptron (SP)——用全局语义原型 \(p_{se}^{i,k}\) 作为query、多模态特征作为key/value做多头注意力,减少类内方差;(d) Robustness Perceptron (RP)——以语义引导特征 \(f_{se}^i\) 为query做注意力,同时得到融合特征和每个模态的鲁棒性分数
  4. 设计动机:语义原型作为类级别的中间锚点,将像素直接关联到语义质心,减少类内方差。RP用语义引导特征而非原始特征作为query,使注意力权重反映类别依赖的鲁棒性(如DSM对结构类别高分,NIR对植被类别高分)

  5. 模态感知采样 (MAS):

  6. 做什么:根据SGF的鲁棒性分数动态调整训练采样概率,优先采样脆弱模态
  7. 核心思路:对鲁棒性分数取倒数归一化 \(\hat{r}_m^i = \frac{1/r_m^i}{\sum_{m'}(1/r_{m'}^i)}\),鲁棒性越低的模态采样概率越高。通过增加脆弱模态的训练频率,单独对其特征进行独立训练
  8. 设计动机:解耦脆弱模态训练,避免优势模态通过梯度压制脆弱模态的学习。不需要模态特定的架构修改,通过采样策略即可实现平衡

  9. 全局语义原型构建:

  10. 做什么:从所有模态的特征中提取类级别的全局表征
  11. 核心思路:\(\{p_{se}^{i,k}\}_{k=1}^K = [\{c_m^i\}_{m\in\mathcal{M}}] \otimes [\{f_{m\to se}^i\}_{m\in\mathcal{M}}]^T\),其中 \(c_m^i\) 是CSF压缩后的类别权重,通过矩阵乘法得到每个类的全局语义原型
  12. 设计动机:综合所有模态的信息构建原型,原型具有全局感受野,能增强类别一致性,超越局部特征的局限

损失函数 / 训练策略

\(\mathcal{L}_{\text{IMSS}} = \lambda_{\text{seg}} \mathcal{L}_{\text{seg}}(\hat{S}_{\text{SGF}}, S) + \lambda_{\text{seg}} \mathcal{L}_{\text{seg}}(\hat{S}_{\text{MAS}}, S) + \lambda_{\text{con}} \sum \mathcal{L}_{\text{con}}(f_m, f_{m'})\)

训练时通过modality dropout模拟模态缺失,SGF和MAS两个分支联合优化;推理时只用SGF分支。

实验关键数据

主实验

在3个遥感数据集上验证(ISPRS、DFC2023及另一个),跨越7种模态组合,2个backbone:

数据集(Pvt-v2-b2) 指标 SGMA 之前SOTA(MAGIC) 平均提升
ISPRS mIoU Average 87.84 77.37 +10.47
ISPRS mIoU Last-1(最差组合) 70.36 45.14 +25.22
ISPRS F1 Average 83.51→全组合 81.39 +2.12
ISPRS F1 Last-1 57.05 34.34 +22.71

关键对比——单模态DSM(Pvt-v2-b2):SGMA 70.36 vs MAGIC 45.14 (+25.22),说明SGMA极大提升了脆弱模态的独立性能。

消融实验

配置 关键指标 说明
Baseline - 无SGF无MAS
+ SGF only 显著提升 语义原型融合的效果
+ MAS only 中等提升 采样重平衡的效果
+ SGF + MAS 最优 两者互补
SP组件去除 下降 验证类内方差减少的贡献
RP组件去除 下降 验证鲁棒性估计的贡献

关键发现

  • SGMA在脆弱模态单独使用时提升最大(DSM单模态提升25+点),说明MAS有效增强了脆弱模态的表征
  • 在完整模态下也有提升(Top-1提升0.35点),说明SGF的语义融合也改善了完整场景
  • 跨backbone一致有效(Pvt-v2-b2和ResNet-50)
  • 即插即用设计:SGF和MAS两个模块可独立或联合使用

亮点与洞察

  • 语义原型的双重作用:既作为类级别锚点减少类内方差,又通过注意力权重量化模态鲁棒性——一个机制解决两个问题
  • 鲁棒性闭环:SGF估计鲁棒性→MAS用鲁棒性指导采样→脆弱模态学习增强→SGF更准确估计鲁棒性,形成良性循环
  • Last-1提升显著:最差模态组合的性能是IMSS的关键瓶颈,SGMA在这个指标上提升超过20个点,说明真正解决了脆弱模态问题

局限性 / 可改进方向

  • 仅在遥感场景验证,未测试医学影像、自动驾驶等其他多模态场景
  • 语义原型计算和双分支训练增加了计算开销
  • 推理时丢弃MAS分支,但MAS的训练信号是否能更有效地传递到SGF值得探索
  • 类别数K较小时原型效果好,但类别数很大时(如100+类)原型的区分力可能下降

相关工作与启发

  • vs MAGIC: 将模态分为robust/fragile组联合优化+余弦对齐,但对齐可能削弱模态特有信息。SGMA通过语义原型做class-level的自适应融合,保留模态特异性
  • vs IMLT: 对比学习+masked pretraining,但对比学习的过度对齐问题。SGMA用语义原型替代对比对齐
  • vs MuSS/M3L: 早期方法性能大幅落后,说明简单dropout或分组策略不够

评分

  • 新颖性: ⭐⭐⭐⭐ 语义原型做鲁棒性估计和采样指导是新颖的组合
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多backbone、多模态组合、充分消融
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐ 遥感IMSS场景的实用方案,脆弱模态提升巨大