跳转至

Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?

会议: ICCV 2025
arXiv: 2503.07890
代码: https://github.com/yurujaja/SatDiFuser
领域: 语义分割 / 遥感
关键词: 遥感基础模型, 扩散模型, 特征融合, 自监督学习, 卫星图像

一句话总结

提出SatDiFuser框架,将生成式地理空间扩散模型(DiffusionSat)转化为判别式遥感基础模型,通过系统分析多阶段多时间步扩散特征并设计三种融合策略(全局加权、局部加权、MoE联合融合),在语义分割和分类任务上优于现有SOTA遥感基础模型,最高提升+5.7% mIoU和+7.9% F1。

研究背景与动机

遥感领域的基础模型(GFMs)主要依赖对比学习(如CROMA)或掩码图像建模(如SatMAE)等自监督范式。然而这些方法存在固有局限:对比学习依赖构造正负样本对,全局监督忽视空间细节;MIM的patch级重建目标对均匀区域主导的遥感场景学习信号不足。

作者提出了一个核心问题:生成式扩散模型是否也能胜任判别式遥感基础模型?

其关键观察是:扩散模型在迭代去噪过程中,天然地同时考虑全局语义结构和局部细节——这与遥感图像多尺度目标的特性高度契合。通过可视化预训练扩散模型的自注意力图,发现语义相似的目标(如牛群、树木、农田)即使尺度差异很大也能强烈互注意,表明扩散模型已经学会了丰富的多粒度语义表示。

方法详解

整体框架

SatDiFuser基于DiffusionSat(一个在大规模卫星图像上预训练的LDM),冻结生成骨干网络,从扩散过程中提取多尺度多时间步特征,通过三种可学习融合策略聚合后接任务特定解码器(分类用线性头,分割用UPerNet)。

关键设计

  1. 扩散特征提取:

    • 输入图像通过VAE编码为潜表示 \(\mathbf{z}\),经DDIM inversion得到含噪潜变量
    • 去噪UNet在4个尺度(\(S=4\))的每个尺度上提取三类特征:
      • 自注意力输出 \(\mathbf{A}_{t,s}\):捕获上下文依赖
      • 交叉注意力输出 \(\mathbf{C}_{t,s}\):编码文本-图像交互
      • ResNet残差输出 \(\mathbf{R}_{t,s}\):捕获局部空间信息
    • 在多个时间步 \(t \in \{1, 100, 200\}\) 上提取,形成多尺度多时间步特征集合
    • 关键发现:ResNet和自注意力输出贡献最大,交叉注意力几乎无用(因其编码的是与任务无关的文本信息)
    • 性能在前20%时间步最优,过晚的时间步噪声太强
  2. 全局加权融合(Global Weighted Fusion):

    • 为每个特征块-时间步对学习一个标量权重 \(w_{l,t}\)
    • 聚合公式:\(\mathbf{X}_s = \sum_{t} \sum_{l} w_{l,t} \cdot \Phi_s^l(\mathbf{F}_{t,s}^l)\)
    • 保持原始多尺度分辨率(不resize到统一尺寸),形成特征金字塔
    • 设计动机:简单高效的全局重要性加权,计算开销极小
  3. 局部加权融合(Localized Weighted Fusion):

    • 通过轻量级门控网络为每个spatial位置生成像素级权重 \(\mathbf{W}_{t,s}^l(u,v)\)
    • 聚合公式:\(\mathbf{X}_s(u,v) = \sum_{t} \sum_{l} \mathbf{W}_{t,s}^l(u,v) \cdot \Phi_s^l(\mathbf{F}_{t,s}^l)(u,v)\)
    • 允许不同空间位置动态强调不同特征
    • 设计动机:对轮廓复杂或纹理异质的遥感目标,像素级权重能保留更多空间细节
  4. MoE联合融合(Mixture-of-Experts Joint Fusion):

    • 在每个尺度和时间步上,将各模块特征沿通道拼接为 \(\mathbf{X}_{t,s}\)
    • 通过共享MoE层处理:\(\mathbf{Y}_{t,s} = \sum_{e=1}^{E} \gamma_e(\mathbf{X}_{t,s}) f_e(\mathbf{X}_{t,s})\)
    • 专家子网络各自学习不同模式,门控函数决定激活哪些专家
    • 设计动机:联合建模模块间和时间步间的复杂交互,比简单标量/像素加权更灵活

训练策略

  • 冻结DiffusionSat骨干,仅训练融合层和解码器
  • 使用AdamW优化器,余弦衰减,5-epoch warmup
  • 文本条件统一设为"A satellite image"避免信息泄漏
  • 仅使用RGB通道(即使数据集有多光谱),仍能胜过使用完整光谱的方法

实验关键数据

主实验 - 语义分割(mIoU %)

方法 pv-s nz-c neon cashew sa-c ches
Satlas(监督预训练) 92.3 83.1 52.0 49.1 31.6 52.2
CROMA(对比学习) 92.5 83.4 56.3 62.2 32.3 63.6
DOFA(MIM) 94.8 82.8 58.1 53.9 26.6 65.7
SatDiFuser-MoE 95.3 83.7 63.4 66.1 31.9 71.6
提升 +0.5 -0.4 +5.7 +4.3 +0.3 +5.9

消融实验(特征融合策略对比)

配置 s2s分类 es分类 cashew分割 pv-s分割
单时间步t=1, SA 53.6 94.3 55.3 92.5
单时间步t=100, R 50.5 92.4 57.9 92.6
简单拼接 55.4 94.5 59.1 92.9
全局加权融合 59.3 97.7 66.5 95.1
局部加权融合 58.9 96.8 64.8 95.0
MoE联合融合 58.8 97.3 66.1 95.3

关键发现

  • 仅使用RGB通道的SatDiFuser就能超越使用完整多光谱输入的GFMs,证明扩散特征的表示能力极强
  • 在m-forestnet和m-so2sat分类任务上甚至超越了全监督基线,令人印象深刻
  • 简单拼接多时间步特征效果有限,可学习融合策略至关重要
  • 三种融合策略各有优势:全局融合最稳定,局部融合适合细节丰富的任务,MoE融合在复杂场景最优
  • 交叉注意力特征几乎无用,因其编码的是与泛型文本prompt的交互而非视觉语义

亮点与洞察

  • 提出了一个重要问题并给出肯定回答:生成式扩散模型确实可以作为GFM,且性能优于现有判别式方法
  • 三种融合策略从简单到复杂、从全局到局部形成体系,为使用扩散特征提供了实用工具箱
  • 仅用RGB就能胜过多光谱方法的发现,暗示扩散模型学到的语义表示质量极高,弥补了光谱信息缺失

局限与展望

  • 当前仅基于DiffusionSat一个扩散模型验证,通用性还需要在更多扩散架构上确认
  • DDIM inversion + 多时间步特征提取的计算开销较大,可能限制实际部署
  • 文本prompt固定为"A satellite image",未充分挖掘文本条件的分类引导潜力
  • 分割解码器(UPerNet)和分类头(线性)都是偏简单的设计,更强的解码器可能进一步提升

相关工作与启发

  • Diffusion Hyperfeatures首先提出聚合多时间步扩散特征用于关键点对应,本文将其扩展到遥感多任务
  • DiffSeg/DiffCut等利用扩散注意力的无监督分割工作验证了扩散特征的判别潜力
  • 本文的系统性实验(时间步、模块类型、融合策略的组合分析)为扩散特征的使用提供了有价值的经验指导

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统性地将大规模遥感扩散模型用于判别任务
  • 实验充分度: ⭐⭐⭐⭐⭐ 12个数据集(6分割+6分类)、8个GFM对比、完整消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,自注意力可视化图很有说服力
  • 价值: ⭐⭐⭐⭐ 为遥感基础模型提供了新的预训练范式选择

相关论文