跳转至

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

会议: CVPR 2026
arXiv: 2603.02505
代码: 无
领域: 遥感 / 多模态分割
关键词: 不完整多模态, 语义引导融合, 模态感知采样, 遥感分割, 脆弱模态

一句话总结

提出SGMA——语义引导模态感知分割框架,通过语义引导融合(SGF)降低类内变异和协调跨模态冲突,模态感知采样(MAS)平衡脆弱模态训练,在ISPRS上Average mIoU +9.20%且弱模态Last-1 mIoU +18.26%(vs SOTA IMLT)。

背景与动机

遥感多模态分割集成RGB/DSM/NIR/SAR等,但传感器故障或覆盖不完整导致模态缺失。现有方法面临三大问题:(1)模态不平衡(鲁棒模态压制脆弱模态),(2)类内变异(尺度/形状差异),(3)跨模态异质性(不同模态语义线索冲突)。对比对齐可能过度对齐丢失模态特有信息。

核心问题

在任意模态缺失场景下,如何确保平衡的多模态学习,同时降低类内变异和协调跨模态不一致,且不需要模态特定架构修改?

方法详解

整体框架

共享权重编码器提取各模态多尺度特征 → SGF模块通过语义原型融合 → MAS模块重平衡训练优先脆弱模态。训练时双分支优化;推理仅保留SGF。

关键设计

  1. 语义引导融合(SGF): 类感知语义滤波器(1×1 conv降到K类)提取全局类原型。空间感知器(MHA)用原型作query查pixel特征降类内变异。鲁棒性感知器(MHA)通过注意力权重评估模态可靠性做自适应融合。

  2. 模态感知采样(MAS): 反转SGF的鲁棒性分数(\(\hat{r}_m^i = \frac{1/r_m^i}{\sum 1/r_m^i}\))计算采样概率。随机更频繁选择脆弱模态独立训练,防止鲁棒模态主导。

  3. 模态特定投影器(MP): 三个depth-wise卷积(11×11/7×7/3×3)+1×1 point-wise,多尺度感受野将模态特征映射到统一语义空间。

损失函数 / 训练策略

\(\mathcal{L} = 2\mathcal{L}_{SGF} + 1\mathcal{L}_{MAS}\),均为交叉熵。AdamW, lr=6e-5, polynomial decay, 200 epochs, warmup 10, 4×A100。仅增加4.79M参数+0.79G FLOPs。

实验关键数据

数据集 指标 SGMA IMLT(SOTA) 提升
ISPRS Avg mIoU 79.55% 70.35% +9.20%
ISPRS Last-1 mIoU 57.05% 38.78% +18.26%
DFC2023 Avg mIoU 81.91% 74.25% +7.66%
DELIVER Avg mIoU 55.49% 47.17% +8.31%

消融实验要点

  • 无SGF无MAS基线: Avg 46.51%, Last-1 2.61%。+SGF→49.13%/7.01%——语义引导降类内变异
  • 全模型(SGF+MAS): Avg 79.55%(+30.42%), Last-1 57.05%(+50.04%)——MAS是平衡脆弱模态的关键
  • SGF降建筑类内方差0.84→0.74; MAS改善脆弱模态轮廓分数0.03/0.05→0.30/0.31(DSM/NIR)

亮点

  • 即插即用仅4.79M参数+0.79G FLOPs开销
  • 脆弱模态Last-1提升惊人(+18.26%)
  • 跨backbone(PVT+ResNet)和跨域(遥感+自动驾驶)泛化

局限性 / 可改进方向

  • 假设训练时所有模态可用
  • 缺乏模态特定学习动态的可解释性机制
  • 未验证时序多模态序列

与相关工作的对比

  • MAGIC(ECCV24): 模态无关分割, 67.43% Avg mIoU → 本文79.55%
  • IMLT(IEEE TGRS 24): 不完整多模态+对比预训练, 70.35% → 本文79.55%

评分

  • 新颖性: ⭐⭐⭐⭐ 语义原型引导融合+反转鲁棒性做采样的设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个遥感+1个自动驾驶数据集, 2个backbone, 详细消融
  • 写作质量: ⭐⭐⭐⭐ 问题分解清晰(模态不平衡/类内变异/跨模态冲突)
  • 价值: ⭐⭐⭐⭐⭐ 对不完整多模态遥感分割有显著实用贡献