Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?¶
会议: ICCV 2025
arXiv: 2503.07890
代码: https://github.com/yurujaja/SatDiFuser
领域: 语义分割 / 遥感
关键词: 遥感基础模型, 扩散模型, 特征融合, 自监督学习, 卫星图像
一句话总结¶
提出SatDiFuser框架,将生成式地理空间扩散模型(DiffusionSat)转化为判别式遥感基础模型,通过系统分析多阶段多时间步扩散特征并设计三种融合策略(全局加权、局部加权、MoE联合融合),在语义分割和分类任务上优于现有SOTA遥感基础模型,最高提升+5.7% mIoU和+7.9% F1。
研究背景与动机¶
遥感领域的基础模型(GFMs)主要依赖对比学习(如CROMA)或掩码图像建模(如SatMAE)等自监督范式。然而这些方法存在固有局限:对比学习依赖构造正负样本对,全局监督忽视空间细节;MIM的patch级重建目标对均匀区域主导的遥感场景学习信号不足。
作者提出了一个核心问题:生成式扩散模型是否也能胜任判别式遥感基础模型?
其关键观察是:扩散模型在迭代去噪过程中,天然地同时考虑全局语义结构和局部细节——这与遥感图像多尺度目标的特性高度契合。通过可视化预训练扩散模型的自注意力图,发现语义相似的目标(如牛群、树木、农田)即使尺度差异很大也能强烈互注意,表明扩散模型已经学会了丰富的多粒度语义表示。
方法详解¶
整体框架¶
SatDiFuser基于DiffusionSat(一个在大规模卫星图像上预训练的LDM),冻结生成骨干网络,从扩散过程中提取多尺度多时间步特征,通过三种可学习融合策略聚合后接任务特定解码器(分类用线性头,分割用UPerNet)。
关键设计¶
-
扩散特征提取:
- 输入图像通过VAE编码为潜表示 \(\mathbf{z}\),经DDIM inversion得到含噪潜变量
- 去噪UNet在4个尺度(\(S=4\))的每个尺度上提取三类特征:
- 自注意力输出 \(\mathbf{A}_{t,s}\):捕获上下文依赖
- 交叉注意力输出 \(\mathbf{C}_{t,s}\):编码文本-图像交互
- ResNet残差输出 \(\mathbf{R}_{t,s}\):捕获局部空间信息
- 在多个时间步 \(t \in \{1, 100, 200\}\) 上提取,形成多尺度多时间步特征集合
- 关键发现:ResNet和自注意力输出贡献最大,交叉注意力几乎无用(因其编码的是与任务无关的文本信息)
- 性能在前20%时间步最优,过晚的时间步噪声太强
-
全局加权融合(Global Weighted Fusion):
- 为每个特征块-时间步对学习一个标量权重 \(w_{l,t}\)
- 聚合公式:\(\mathbf{X}_s = \sum_{t} \sum_{l} w_{l,t} \cdot \Phi_s^l(\mathbf{F}_{t,s}^l)\)
- 保持原始多尺度分辨率(不resize到统一尺寸),形成特征金字塔
- 设计动机:简单高效的全局重要性加权,计算开销极小
-
局部加权融合(Localized Weighted Fusion):
- 通过轻量级门控网络为每个spatial位置生成像素级权重 \(\mathbf{W}_{t,s}^l(u,v)\)
- 聚合公式:\(\mathbf{X}_s(u,v) = \sum_{t} \sum_{l} \mathbf{W}_{t,s}^l(u,v) \cdot \Phi_s^l(\mathbf{F}_{t,s}^l)(u,v)\)
- 允许不同空间位置动态强调不同特征
- 设计动机:对轮廓复杂或纹理异质的遥感目标,像素级权重能保留更多空间细节
-
MoE联合融合(Mixture-of-Experts Joint Fusion):
- 在每个尺度和时间步上,将各模块特征沿通道拼接为 \(\mathbf{X}_{t,s}\)
- 通过共享MoE层处理:\(\mathbf{Y}_{t,s} = \sum_{e=1}^{E} \gamma_e(\mathbf{X}_{t,s}) f_e(\mathbf{X}_{t,s})\)
- 专家子网络各自学习不同模式,门控函数决定激活哪些专家
- 设计动机:联合建模模块间和时间步间的复杂交互,比简单标量/像素加权更灵活
训练策略¶
- 冻结DiffusionSat骨干,仅训练融合层和解码器
- 使用AdamW优化器,余弦衰减,5-epoch warmup
- 文本条件统一设为"A satellite image"避免信息泄漏
- 仅使用RGB通道(即使数据集有多光谱),仍能胜过使用完整光谱的方法
实验关键数据¶
主实验 - 语义分割(mIoU %)¶
| 方法 | pv-s | nz-c | neon | cashew | sa-c | ches |
|---|---|---|---|---|---|---|
| Satlas(监督预训练) | 92.3 | 83.1 | 52.0 | 49.1 | 31.6 | 52.2 |
| CROMA(对比学习) | 92.5 | 83.4 | 56.3 | 62.2 | 32.3 | 63.6 |
| DOFA(MIM) | 94.8 | 82.8 | 58.1 | 53.9 | 26.6 | 65.7 |
| SatDiFuser-MoE | 95.3 | 83.7 | 63.4 | 66.1 | 31.9 | 71.6 |
| 提升 | +0.5 | -0.4 | +5.7 | +4.3 | +0.3 | +5.9 |
消融实验(特征融合策略对比)¶
| 配置 | s2s分类 | es分类 | cashew分割 | pv-s分割 |
|---|---|---|---|---|
| 单时间步t=1, SA | 53.6 | 94.3 | 55.3 | 92.5 |
| 单时间步t=100, R | 50.5 | 92.4 | 57.9 | 92.6 |
| 简单拼接 | 55.4 | 94.5 | 59.1 | 92.9 |
| 全局加权融合 | 59.3 | 97.7 | 66.5 | 95.1 |
| 局部加权融合 | 58.9 | 96.8 | 64.8 | 95.0 |
| MoE联合融合 | 58.8 | 97.3 | 66.1 | 95.3 |
关键发现¶
- 仅使用RGB通道的SatDiFuser就能超越使用完整多光谱输入的GFMs,证明扩散特征的表示能力极强
- 在m-forestnet和m-so2sat分类任务上甚至超越了全监督基线,令人印象深刻
- 简单拼接多时间步特征效果有限,可学习融合策略至关重要
- 三种融合策略各有优势:全局融合最稳定,局部融合适合细节丰富的任务,MoE融合在复杂场景最优
- 交叉注意力特征几乎无用,因其编码的是与泛型文本prompt的交互而非视觉语义
亮点与洞察¶
- 提出了一个重要问题并给出肯定回答:生成式扩散模型确实可以作为GFM,且性能优于现有判别式方法
- 三种融合策略从简单到复杂、从全局到局部形成体系,为使用扩散特征提供了实用工具箱
- 仅用RGB就能胜过多光谱方法的发现,暗示扩散模型学到的语义表示质量极高,弥补了光谱信息缺失
局限与展望¶
- 当前仅基于DiffusionSat一个扩散模型验证,通用性还需要在更多扩散架构上确认
- DDIM inversion + 多时间步特征提取的计算开销较大,可能限制实际部署
- 文本prompt固定为"A satellite image",未充分挖掘文本条件的分类引导潜力
- 分割解码器(UPerNet)和分类头(线性)都是偏简单的设计,更强的解码器可能进一步提升
相关工作与启发¶
- Diffusion Hyperfeatures首先提出聚合多时间步扩散特征用于关键点对应,本文将其扩展到遥感多任务
- DiffSeg/DiffCut等利用扩散注意力的无监督分割工作验证了扩散特征的判别潜力
- 本文的系统性实验(时间步、模块类型、融合策略的组合分析)为扩散特征的使用提供了有价值的经验指导
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性地将大规模遥感扩散模型用于判别任务
- 实验充分度: ⭐⭐⭐⭐⭐ 12个数据集(6分割+6分类)、8个GFM对比、完整消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,自注意力可视化图很有说服力
- 价值: ⭐⭐⭐⭐ 为遥感基础模型提供了新的预训练范式选择
相关论文¶
- [ICCV 2025] TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models
- [NeurIPS 2025] RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing
- [ECCV 2024] Diffusion Models for Open-Vocabulary Segmentation
- [CVPR 2025] CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation
- [CVPR 2025] SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models