跳转至

CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation

会议: CVPR 2025
arXiv: 2603.12008
代码: VisionXLab/CrossEarth-SAR
领域: 图像分割 / SAR遥感 / 基础模型
关键词: SAR 基础模型, 域泛化语义分割, 稀疏混合专家, 物理引导路由, 十亿参数

一句话总结

提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR,基于物理引导的稀疏混合专家 (MoE) 架构,构建了包含 200K 图像的训练集和 22 个子基准的评估体系,在 20/22 个跨域语义分割基准上达到 SOTA。

研究背景与动机

1. 领域背景

合成孔径雷达 (SAR) 具备全天候、全天时地球观测能力,在灾害监测、环境监控和城市管理中不可替代。语义分割是将复杂 SAR 数据转化为可操作信息的核心任务。

2. 现有方法的不足

  • SAR 固有挑战:相干成像导致乘性散斑噪声、侧视几何引起叠掩/前缩/阴影畸变、雷达后向散射导致语义模糊(不同类别可能有相同外观)
  • 极端域偏移:不同传感器(Sentinel-1/ALOS-2/Capella)、频带 (C/L/X)、极化模式 (HH/HV/VV/VH)、入射角导致数据特性碎片化,模型跨域迁移灾难性失败
  • 现有基础模型不足:光学基础模型(SatMAE, SkySense)不适应 SAR 物理特性;SAR 模型多聚焦目标检测而非稠密分割,且未针对跨域泛化设计

3. 关键挑战

如何构建一个具有足够容量吸收 SAR 极端多样性、同时计算可行的基础模型,实现跨传感器、跨区域、跨极化的鲁棒语义分割。

4. 核心思路

采用稀疏 MoE 架构使参数量扩展到十亿级(捕获极端域多样性),同时保持每张图像的推理成本可控,并引入物理引导路由机制稳定专家选择。

5. 前人尝试与局限

  • CrossEarth 是首个针对域泛化分割的 VFM,但仅面向光学遥感
  • SARATR-X 等 SAR 基础模型聚焦目标识别而非稠密分割
  • 现有方法常依赖配对光学图像辅助 SAR 分割,泛化能力受限

6. 解决方案概述

三管齐下:(1) 物理引导稀疏 MoE 基础模型 CrossEarth-SAR;(2) 200K 规模弱+全监督数据集 CrossEarth-SAR-200K;(3) 22 个子基准覆盖 8 种域差距的评估体系。

方法详解

整体框架

在 DINOv2 (ViT) 骨干上,将每个 block 的 FFN 替换为稀疏 MoE(n 个 expert,每次激活 top-k 个),输入 SAR 图像复制为 3 通道后前传。并行计算三个 SAR 物理描述符指导路由。解码器采用 Mask2Former。训练联合优化分割损失和负载均衡损失。

关键设计一:SAR 物理描述符

  • 做什么:为每张 SAR 图像计算三个标量物理特征,提供稳定的域感知信号
  • 核心思路:三个描述符分别刻画成像几何、雷达系统和目标散射特性
  • 方向熵 H_DE:衡量梯度方向分布的均匀程度,刻画成像几何差异
  • 等效视数 ENL:μ²/σ² 衡量散斑强度,刻画雷达系统噪声特性
  • 局部粗糙度 R_LR:块均值方差,刻画纹理变化程度
  • 设计动机:标准路由器基于学习的 token embedding 选择专家,但 SAR 异质数据导致 embedding 剧烈波动 (Routing Instability),物理描述符提供稳定的域先验信号

关键设计二:物理引导稀疏 MoE

  • 做什么:扩展模型容量到十亿参数,同时保持推理效率
  • 核心思路:每个 ViT block 中,token embedding 与物理描述符拼接后送入路由器,路由器选择 top-k 个专家,加权聚合专家输出
  • 设计动机:密集扩大网络计算成本不可承受;稀疏 MoE 通过多专家设计允许不同专家专注不同 SAR 特性,while 稀疏激活保证推理成本可控
  • 负载均衡损失:L_BC = λ·n·Σ(f_k·p_k),防止专家坍塌,λ=0.005

关键设计三:CrossEarth-SAR-200K 数据集

  • 做什么:构建大规模 SAR 语义分割训练数据
  • 核心思路:40K 全监督标注 + 160K 弱监督(用 CrossEarth 光学模型分割配对光学图像生成伪标签)
  • 设计动机:SAR 标注数据稀缺,需大规模数据支撑十亿参数模型预训练
  • 伪标签质量:4 个模型在 1K 样本上的 Mean Agreement 达 75.88%,高于 OpenEarthMap-SAR 的 63.20%

关键设计四:Earth-Adapter (SAR RS-PEFT)

  • 做什么:下游任务参数高效微调
  • 核心思路:冻结骨干,仅训练解码器和适配器

损失函数

总损失 = 分割损失 L_seg + 负载均衡损失 L_BC,L_BC 权重 λ=0.005。

实验关键数据

主实验:单域差距基准 (Table 2, 12 个基准的平均 mIoU)

方法 参数量 单域差距 Avg.
DINOv2 (Baseline) 300M 55.5
DINOv3 300M 53.0
MTP 300M 44.7
SARATR-X 60M 49.3
CrossEarth-SAR-S 90M (20M activated) 59.7
CrossEarth-SAR-B 300M (80M activated) 61.1
CrossEarth-SAR-L 1.3B (300M activated) 61.9
CrossEarth-SAR-L* 1.3B (300M activated) 62.7

关键极化/复值基准 (Table 2)

基准 DINOv2 CrossEarth-SAR-L 提升
VV2F 65.7 73.8 +8.1
HH2F 56.8 72.3 +15.5
F2VV 63.2 69.8 +6.6
F2HH 55.2 67.1 +11.9
C(r)2R 71.3 76.4 +5.1

多域差距基准 (Table 3, 10 个基准的平均 mIoU)

方法 2+3 域差距 Avg.
DINOv2 (Baseline) 24.3
CrossEarth-SAR-S 24.8
CrossEarth-SAR-L 27.7
CrossEarth-SAR-L* 28.5

消融实验 (Table 5-6)

消融内容 mIoU 增益
仅 40K 全监督 45.1 -14.3
CrossEarth-SAR-200K (无 MoE) 59.4 +0.0
+ plain MoE 61.1 +1.7
+ L_BC 62.2 +2.8
+ 物理描述符 61.6 +2.2
+ 两者 62.4 +3.0

关键发现

  1. 数据规模至关重要:200K 数据比 40K 全监督提升 14.3% mIoU
  2. 伪标签有效:40K 伪标签带来的提升甚至大于 40K 真实标签
  3. 物理描述符和负载均衡互补:单独使用分别提升 +2.2% 和 +2.8%,组合达 +3.0%
  4. 专家数量 n=6, top-k=1 最优:增加 top-k 反而降低性能(数据规模下单专家专攻更优)
  5. 物理描述符敏感性:H_DE 对极化最敏感 (73.47%),ENL 对复值最敏感 (75.97%),R_LR 对区域最敏感 (37.49%)
  6. 专家层级专攻:Expert 3/4 主导早期层(低级 SAR 线索),Expert 1/2/5/6 活跃于中间层(几何/纹理),Expert 1/5 集中于深层(高级语义)
  7. 小模型也很强:90M CrossEarth-SAR-S 在 HH2F 基准上超越 300M DINOv2 达 11.7%

亮点与洞察

  1. 物理引导路由是核心创新:将 SAR 物理先验(方向熵、等效视数、局部粗糙度)显式注入 MoE 路由,解决异质 SAR 数据导致的路由不稳定问题
  2. 稀疏 MoE 架构巧妙解决了容量与效率的矛盾:1.3B 参数但激活参数仅 300M
  3. 完整生态建设:不仅是模型,还包括 200K 数据集 + 22 个基准,推动 SAR 域泛化研究标准化
  4. 专家层级专攻的可视化分析揭示了有意义的模式:浅层专注散斑、中层处理几何纹理、深层学习语义

局限性 / 可改进方向

  1. 多域差距 (2-3 gaps) 场景性能仍有较大提升空间(绝对 mIoU 仅 ~28%)
  2. 伪标签质量受限于光学模型 CrossEarth 的能力,存在标签噪声
  3. 持续预训练需 16×A100 GPU,计算成本高昂
  4. 仅验证语义分割任务,未拓展到变化检测、目标识别等其他下游任务
  5. D2F 等部分基准上未超越 Baseline,多域差距泛化仍是开放问题

相关工作与启发

  • 与 CrossEarth 的关系:CrossEarth 是首个光学域泛化 VFM,CrossEarth-SAR 将类似理念拓展到 SAR 模态,并通过 MoE 架构处理 SAR 特有的多域碎片化问题
  • 与 SARATR-X 对比:SARATR-X 聚焦目标识别,仅 60M 参数;CrossEarth-SAR 面向稠密分割,十亿参数级
  • 物理描述符的思路可推广到其他物理成像模态(如超声、MRI)的域泛化问题

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (首个十亿级 SAR VFM,物理引导 MoE 路由机制新颖,三个物物描述符设计有 domain knowledge)
  • 实验充分度: ⭐⭐⭐⭐⭐ (22 个基准覆盖 8 种域差距,与 10+ 方法对比,消融实验覆盖数据/MoE/学习率/专家数量/物理描述符)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,问题定义精准,可视化丰富;论文较长但信息密度高)
  • 价值: ⭐⭐⭐⭐⭐ (填补 SAR 域泛化基础模型空白,提供数据集+基准+模型全栈贡献,开源代码和数据)