CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation¶
会议: CVPR 2025
arXiv: 2603.12008
代码: VisionXLab/CrossEarth-SAR
领域: 图像分割 / SAR遥感 / 基础模型
关键词: SAR 基础模型, 域泛化语义分割, 稀疏混合专家, 物理引导路由, 十亿参数
一句话总结¶
提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR,基于物理引导的稀疏混合专家 (MoE) 架构,构建了包含 200K 图像的训练集和 22 个子基准的评估体系,在 20/22 个跨域语义分割基准上达到 SOTA。
研究背景与动机¶
1. 领域背景¶
合成孔径雷达 (SAR) 具备全天候、全天时地球观测能力,在灾害监测、环境监控和城市管理中不可替代。语义分割是将复杂 SAR 数据转化为可操作信息的核心任务。
2. 现有方法的不足¶
- SAR 固有挑战:相干成像导致乘性散斑噪声、侧视几何引起叠掩/前缩/阴影畸变、雷达后向散射导致语义模糊(不同类别可能有相同外观)
- 极端域偏移:不同传感器(Sentinel-1/ALOS-2/Capella)、频带 (C/L/X)、极化模式 (HH/HV/VV/VH)、入射角导致数据特性碎片化,模型跨域迁移灾难性失败
- 现有基础模型不足:光学基础模型(SatMAE, SkySense)不适应 SAR 物理特性;SAR 模型多聚焦目标检测而非稠密分割,且未针对跨域泛化设计
3. 关键挑战¶
如何构建一个具有足够容量吸收 SAR 极端多样性、同时计算可行的基础模型,实现跨传感器、跨区域、跨极化的鲁棒语义分割。
4. 核心思路¶
采用稀疏 MoE 架构使参数量扩展到十亿级(捕获极端域多样性),同时保持每张图像的推理成本可控,并引入物理引导路由机制稳定专家选择。
5. 前人尝试与局限¶
- CrossEarth 是首个针对域泛化分割的 VFM,但仅面向光学遥感
- SARATR-X 等 SAR 基础模型聚焦目标识别而非稠密分割
- 现有方法常依赖配对光学图像辅助 SAR 分割,泛化能力受限
6. 解决方案概述¶
三管齐下:(1) 物理引导稀疏 MoE 基础模型 CrossEarth-SAR;(2) 200K 规模弱+全监督数据集 CrossEarth-SAR-200K;(3) 22 个子基准覆盖 8 种域差距的评估体系。
方法详解¶
整体框架¶
在 DINOv2 (ViT) 骨干上,将每个 block 的 FFN 替换为稀疏 MoE(n 个 expert,每次激活 top-k 个),输入 SAR 图像复制为 3 通道后前传。并行计算三个 SAR 物理描述符指导路由。解码器采用 Mask2Former。训练联合优化分割损失和负载均衡损失。
关键设计一:SAR 物理描述符¶
- 做什么:为每张 SAR 图像计算三个标量物理特征,提供稳定的域感知信号
- 核心思路:三个描述符分别刻画成像几何、雷达系统和目标散射特性
- 方向熵 H_DE:衡量梯度方向分布的均匀程度,刻画成像几何差异
- 等效视数 ENL:μ²/σ² 衡量散斑强度,刻画雷达系统噪声特性
- 局部粗糙度 R_LR:块均值方差,刻画纹理变化程度
- 设计动机:标准路由器基于学习的 token embedding 选择专家,但 SAR 异质数据导致 embedding 剧烈波动 (Routing Instability),物理描述符提供稳定的域先验信号
关键设计二:物理引导稀疏 MoE¶
- 做什么:扩展模型容量到十亿参数,同时保持推理效率
- 核心思路:每个 ViT block 中,token embedding 与物理描述符拼接后送入路由器,路由器选择 top-k 个专家,加权聚合专家输出
- 设计动机:密集扩大网络计算成本不可承受;稀疏 MoE 通过多专家设计允许不同专家专注不同 SAR 特性,while 稀疏激活保证推理成本可控
- 负载均衡损失:L_BC = λ·n·Σ(f_k·p_k),防止专家坍塌,λ=0.005
关键设计三:CrossEarth-SAR-200K 数据集¶
- 做什么:构建大规模 SAR 语义分割训练数据
- 核心思路:40K 全监督标注 + 160K 弱监督(用 CrossEarth 光学模型分割配对光学图像生成伪标签)
- 设计动机:SAR 标注数据稀缺,需大规模数据支撑十亿参数模型预训练
- 伪标签质量:4 个模型在 1K 样本上的 Mean Agreement 达 75.88%,高于 OpenEarthMap-SAR 的 63.20%
关键设计四:Earth-Adapter (SAR RS-PEFT)¶
- 做什么:下游任务参数高效微调
- 核心思路:冻结骨干,仅训练解码器和适配器
损失函数¶
总损失 = 分割损失 L_seg + 负载均衡损失 L_BC,L_BC 权重 λ=0.005。
实验关键数据¶
主实验:单域差距基准 (Table 2, 12 个基准的平均 mIoU)¶
| 方法 | 参数量 | 单域差距 Avg. |
|---|---|---|
| DINOv2 (Baseline) | 300M | 55.5 |
| DINOv3 | 300M | 53.0 |
| MTP | 300M | 44.7 |
| SARATR-X | 60M | 49.3 |
| CrossEarth-SAR-S | 90M (20M activated) | 59.7 |
| CrossEarth-SAR-B | 300M (80M activated) | 61.1 |
| CrossEarth-SAR-L | 1.3B (300M activated) | 61.9 |
| CrossEarth-SAR-L* | 1.3B (300M activated) | 62.7 |
关键极化/复值基准 (Table 2)¶
| 基准 | DINOv2 | CrossEarth-SAR-L | 提升 |
|---|---|---|---|
| VV2F | 65.7 | 73.8 | +8.1 |
| HH2F | 56.8 | 72.3 | +15.5 |
| F2VV | 63.2 | 69.8 | +6.6 |
| F2HH | 55.2 | 67.1 | +11.9 |
| C(r)2R | 71.3 | 76.4 | +5.1 |
多域差距基准 (Table 3, 10 个基准的平均 mIoU)¶
| 方法 | 2+3 域差距 Avg. |
|---|---|
| DINOv2 (Baseline) | 24.3 |
| CrossEarth-SAR-S | 24.8 |
| CrossEarth-SAR-L | 27.7 |
| CrossEarth-SAR-L* | 28.5 |
消融实验 (Table 5-6)¶
| 消融内容 | mIoU | 增益 |
|---|---|---|
| 仅 40K 全监督 | 45.1 | -14.3 |
| CrossEarth-SAR-200K (无 MoE) | 59.4 | +0.0 |
| + plain MoE | 61.1 | +1.7 |
| + L_BC | 62.2 | +2.8 |
| + 物理描述符 | 61.6 | +2.2 |
| + 两者 | 62.4 | +3.0 |
关键发现¶
- 数据规模至关重要:200K 数据比 40K 全监督提升 14.3% mIoU
- 伪标签有效:40K 伪标签带来的提升甚至大于 40K 真实标签
- 物理描述符和负载均衡互补:单独使用分别提升 +2.2% 和 +2.8%,组合达 +3.0%
- 专家数量 n=6, top-k=1 最优:增加 top-k 反而降低性能(数据规模下单专家专攻更优)
- 物理描述符敏感性:H_DE 对极化最敏感 (73.47%),ENL 对复值最敏感 (75.97%),R_LR 对区域最敏感 (37.49%)
- 专家层级专攻:Expert 3/4 主导早期层(低级 SAR 线索),Expert 1/2/5/6 活跃于中间层(几何/纹理),Expert 1/5 集中于深层(高级语义)
- 小模型也很强:90M CrossEarth-SAR-S 在 HH2F 基准上超越 300M DINOv2 达 11.7%
亮点与洞察¶
- 物理引导路由是核心创新:将 SAR 物理先验(方向熵、等效视数、局部粗糙度)显式注入 MoE 路由,解决异质 SAR 数据导致的路由不稳定问题
- 稀疏 MoE 架构巧妙解决了容量与效率的矛盾:1.3B 参数但激活参数仅 300M
- 完整生态建设:不仅是模型,还包括 200K 数据集 + 22 个基准,推动 SAR 域泛化研究标准化
- 专家层级专攻的可视化分析揭示了有意义的模式:浅层专注散斑、中层处理几何纹理、深层学习语义
局限性 / 可改进方向¶
- 多域差距 (2-3 gaps) 场景性能仍有较大提升空间(绝对 mIoU 仅 ~28%)
- 伪标签质量受限于光学模型 CrossEarth 的能力,存在标签噪声
- 持续预训练需 16×A100 GPU,计算成本高昂
- 仅验证语义分割任务,未拓展到变化检测、目标识别等其他下游任务
- D2F 等部分基准上未超越 Baseline,多域差距泛化仍是开放问题
相关工作与启发¶
- 与 CrossEarth 的关系:CrossEarth 是首个光学域泛化 VFM,CrossEarth-SAR 将类似理念拓展到 SAR 模态,并通过 MoE 架构处理 SAR 特有的多域碎片化问题
- 与 SARATR-X 对比:SARATR-X 聚焦目标识别,仅 60M 参数;CrossEarth-SAR 面向稠密分割,十亿参数级
- 物理描述符的思路可推广到其他物理成像模态(如超声、MRI)的域泛化问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (首个十亿级 SAR VFM,物理引导 MoE 路由机制新颖,三个物物描述符设计有 domain knowledge)
- 实验充分度: ⭐⭐⭐⭐⭐ (22 个基准覆盖 8 种域差距,与 10+ 方法对比,消融实验覆盖数据/MoE/学习率/专家数量/物理描述符)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,问题定义精准,可视化丰富;论文较长但信息密度高)
- 价值: ⭐⭐⭐⭐⭐ (填补 SAR 域泛化基础模型空白,提供数据集+基准+模型全栈贡献,开源代码和数据)