Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?¶

会议: ICCV 2025
arXiv: 2503.07890
代码: https://github.com/yurujaja/SatDiFuser
领域: 语义分割 / 遥感
关键词: 遥感基础模型, 扩散模型, 特征融合, 自监督学习, 卫星图像

一句话总结¶

提出SatDiFuser框架，将生成式地理空间扩散模型（DiffusionSat）转化为判别式遥感基础模型，通过系统分析多阶段多时间步扩散特征并设计三种融合策略（全局加权、局部加权、MoE联合融合），在语义分割和分类任务上优于现有SOTA遥感基础模型，最高提升+5.7% mIoU和+7.9% F1。

研究背景与动机¶

遥感领域的基础模型（GFMs）主要依赖对比学习（如CROMA）或掩码图像建模（如SatMAE）等自监督范式。然而这些方法存在固有局限：对比学习依赖构造正负样本对，全局监督忽视空间细节；MIM的patch级重建目标对均匀区域主导的遥感场景学习信号不足。

作者提出了一个核心问题：生成式扩散模型是否也能胜任判别式遥感基础模型？

其关键观察是：扩散模型在迭代去噪过程中，天然地同时考虑全局语义结构和局部细节——这与遥感图像多尺度目标的特性高度契合。通过可视化预训练扩散模型的自注意力图，发现语义相似的目标（如牛群、树木、农田）即使尺度差异很大也能强烈互注意，表明扩散模型已经学会了丰富的多粒度语义表示。

方法详解¶

整体框架¶

SatDiFuser基于DiffusionSat（一个在大规模卫星图像上预训练的LDM），冻结生成骨干网络，从扩散过程中提取多尺度多时间步特征，通过三种可学习融合策略聚合后接任务特定解码器（分类用线性头，分割用UPerNet）。

关键设计¶

扩散特征提取:
- 输入图像通过VAE编码为潜表示 \(\mathbf{z}\)，经DDIM inversion得到含噪潜变量
- 去噪UNet在4个尺度（\(S=4\)）的每个尺度上提取三类特征：
  - 自注意力输出 \(\mathbf{A}_{t,s}\)：捕获上下文依赖
  - 交叉注意力输出 \(\mathbf{C}_{t,s}\)：编码文本-图像交互
  - ResNet残差输出 \(\mathbf{R}_{t,s}\)：捕获局部空间信息
- 在多个时间步 \(t \in \{1, 100, 200\}\) 上提取，形成多尺度多时间步特征集合
- 关键发现：ResNet和自注意力输出贡献最大，交叉注意力几乎无用（因其编码的是与任务无关的文本信息）
- 性能在前20%时间步最优，过晚的时间步噪声太强
全局加权融合（Global Weighted Fusion）:
- 为每个特征块-时间步对学习一个标量权重 \(w_{l,t}\)
- 聚合公式：\(\mathbf{X}_s = \sum_{t} \sum_{l} w_{l,t} \cdot \Phi_s^l(\mathbf{F}_{t,s}^l)\)
- 保持原始多尺度分辨率（不resize到统一尺寸），形成特征金字塔
- 设计动机：简单高效的全局重要性加权，计算开销极小
局部加权融合（Localized Weighted Fusion）:
- 通过轻量级门控网络为每个spatial位置生成像素级权重 \(\mathbf{W}_{t,s}^l(u,v)\)
- 聚合公式：\(\mathbf{X}_s(u,v) = \sum_{t} \sum_{l} \mathbf{W}_{t,s}^l(u,v) \cdot \Phi_s^l(\mathbf{F}_{t,s}^l)(u,v)\)
- 允许不同空间位置动态强调不同特征
- 设计动机：对轮廓复杂或纹理异质的遥感目标，像素级权重能保留更多空间细节
MoE联合融合（Mixture-of-Experts Joint Fusion）:
- 在每个尺度和时间步上，将各模块特征沿通道拼接为 \(\mathbf{X}_{t,s}\)
- 通过共享MoE层处理：\(\mathbf{Y}_{t,s} = \sum_{e=1}^{E} \gamma_e(\mathbf{X}_{t,s}) f_e(\mathbf{X}_{t,s})\)
- 专家子网络各自学习不同模式，门控函数决定激活哪些专家
- 设计动机：联合建模模块间和时间步间的复杂交互，比简单标量/像素加权更灵活

训练策略¶

冻结DiffusionSat骨干，仅训练融合层和解码器
使用AdamW优化器，余弦衰减，5-epoch warmup
文本条件统一设为"A satellite image"避免信息泄漏
仅使用RGB通道（即使数据集有多光谱），仍能胜过使用完整光谱的方法

实验关键数据¶

主实验 - 语义分割（mIoU %）¶

方法	pv-s	nz-c	neon	cashew	sa-c	ches
Satlas(监督预训练)	92.3	83.1	52.0	49.1	31.6	52.2
CROMA(对比学习)	92.5	83.4	56.3	62.2	32.3	63.6
DOFA(MIM)	94.8	82.8	58.1	53.9	26.6	65.7
SatDiFuser-MoE	95.3	83.7	63.4	66.1	31.9	71.6
提升	+0.5	-0.4	+5.7	+4.3	+0.3	+5.9

消融实验（特征融合策略对比）¶

配置	s2s分类	es分类	cashew分割	pv-s分割
单时间步t=1, SA	53.6	94.3	55.3	92.5
单时间步t=100, R	50.5	92.4	57.9	92.6
简单拼接	55.4	94.5	59.1	92.9
全局加权融合	59.3	97.7	66.5	95.1
局部加权融合	58.9	96.8	64.8	95.0
MoE联合融合	58.8	97.3	66.1	95.3

关键发现¶

仅使用RGB通道的SatDiFuser就能超越使用完整多光谱输入的GFMs，证明扩散特征的表示能力极强
在m-forestnet和m-so2sat分类任务上甚至超越了全监督基线，令人印象深刻
简单拼接多时间步特征效果有限，可学习融合策略至关重要
三种融合策略各有优势：全局融合最稳定，局部融合适合细节丰富的任务，MoE融合在复杂场景最优
交叉注意力特征几乎无用，因其编码的是与泛型文本prompt的交互而非视觉语义

亮点与洞察¶

提出了一个重要问题并给出肯定回答：生成式扩散模型确实可以作为GFM，且性能优于现有判别式方法
三种融合策略从简单到复杂、从全局到局部形成体系，为使用扩散特征提供了实用工具箱
仅用RGB就能胜过多光谱方法的发现，暗示扩散模型学到的语义表示质量极高，弥补了光谱信息缺失

局限与展望¶

当前仅基于DiffusionSat一个扩散模型验证，通用性还需要在更多扩散架构上确认
DDIM inversion + 多时间步特征提取的计算开销较大，可能限制实际部署
文本prompt固定为"A satellite image"，未充分挖掘文本条件的分类引导潜力
分割解码器（UPerNet）和分类头（线性）都是偏简单的设计，更强的解码器可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地将大规模遥感扩散模型用于判别任务
实验充分度: ⭐⭐⭐⭐⭐ 12个数据集（6分割+6分类）、8个GFM对比、完整消融
写作质量: ⭐⭐⭐⭐ 结构清晰，自注意力可视化图很有说服力
价值: ⭐⭐⭐⭐ 为遥感基础模型提供了新的预训练范式选择