SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data¶

会议: CVPR 2026
arXiv: 2603.02505
代码: 无
领域: 遥感 / 多模态分割
关键词: 不完整多模态, 语义引导融合, 模态感知采样, 遥感分割, 脆弱模态

一句话总结¶

提出SGMA——语义引导模态感知分割框架，通过语义引导融合(SGF)降低类内变异和协调跨模态冲突，模态感知采样(MAS)平衡脆弱模态训练，在ISPRS上Average mIoU +9.20%且弱模态Last-1 mIoU +18.26%(vs SOTA IMLT)。

背景与动机¶

遥感多模态分割集成RGB/DSM/NIR/SAR等，但传感器故障或覆盖不完整导致模态缺失。现有方法面临三大问题：(1)模态不平衡（鲁棒模态压制脆弱模态），(2)类内变异（尺度/形状差异），(3)跨模态异质性（不同模态语义线索冲突）。对比对齐可能过度对齐丢失模态特有信息。

核心问题¶

在任意模态缺失场景下，如何确保平衡的多模态学习，同时降低类内变异和协调跨模态不一致，且不需要模态特定架构修改？

方法详解¶

整体框架¶

共享权重编码器提取各模态多尺度特征 → SGF模块通过语义原型融合 → MAS模块重平衡训练优先脆弱模态。训练时双分支优化；推理仅保留SGF。

关键设计¶

语义引导融合(SGF): 类感知语义滤波器(1×1 conv降到K类)提取全局类原型。空间感知器(MHA)用原型作query查pixel特征降类内变异。鲁棒性感知器(MHA)通过注意力权重评估模态可靠性做自适应融合。
模态感知采样(MAS): 反转SGF的鲁棒性分数(\(\hat{r}_m^i = \frac{1/r_m^i}{\sum 1/r_m^i}\))计算采样概率。随机更频繁选择脆弱模态独立训练，防止鲁棒模态主导。
模态特定投影器(MP): 三个depth-wise卷积(11×11/7×7/3×3)+1×1 point-wise，多尺度感受野将模态特征映射到统一语义空间。

损失函数 / 训练策略¶

\(\mathcal{L} = 2\mathcal{L}_{SGF} + 1\mathcal{L}_{MAS}\)，均为交叉熵。AdamW, lr=6e-5, polynomial decay, 200 epochs, warmup 10, 4×A100。仅增加4.79M参数+0.79G FLOPs。

实验关键数据¶

数据集	指标	SGMA	IMLT(SOTA)	提升
ISPRS	Avg mIoU	79.55%	70.35%	+9.20%
ISPRS	Last-1 mIoU	57.05%	38.78%	+18.26%
DFC2023	Avg mIoU	81.91%	74.25%	+7.66%
DELIVER	Avg mIoU	55.49%	47.17%	+8.31%

消融实验要点¶

无SGF无MAS基线: Avg 46.51%, Last-1 2.61%。+SGF→49.13%/7.01%——语义引导降类内变异
全模型(SGF+MAS): Avg 79.55%(+30.42%), Last-1 57.05%(+50.04%)——MAS是平衡脆弱模态的关键
SGF降建筑类内方差0.84→0.74; MAS改善脆弱模态轮廓分数0.03/0.05→0.30/0.31(DSM/NIR)

亮点¶

即插即用仅4.79M参数+0.79G FLOPs开销
脆弱模态Last-1提升惊人(+18.26%)
跨backbone(PVT+ResNet)和跨域(遥感+自动驾驶)泛化

局限性 / 可改进方向¶

假设训练时所有模态可用
缺乏模态特定学习动态的可解释性机制
未验证时序多模态序列

与相关工作的对比¶

MAGIC(ECCV24): 模态无关分割, 67.43% Avg mIoU → 本文79.55%
IMLT(IEEE TGRS 24): 不完整多模态+对比预训练, 70.35% → 本文79.55%

评分¶

新颖性: ⭐⭐⭐⭐ 语义原型引导融合+反转鲁棒性做采样的设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 3个遥感+1个自动驾驶数据集, 2个backbone, 详细消融
写作质量: ⭐⭐⭐⭐ 问题分解清晰(模态不平衡/类内变异/跨模态冲突)
价值: ⭐⭐⭐⭐⭐ 对不完整多模态遥感分割有显著实用贡献