CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation¶

会议: CVPR 2025
arXiv: 2603.12008
代码: VisionXLab/CrossEarth-SAR
领域: 图像分割 / SAR遥感 / 基础模型
关键词: SAR 基础模型, 域泛化语义分割, 稀疏混合专家, 物理引导路由, 十亿参数

一句话总结¶

提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR，基于物理引导的稀疏混合专家 (MoE) 架构，构建了包含 200K 图像的训练集和 22 个子基准的评估体系，在 20/22 个跨域语义分割基准上达到 SOTA。

研究背景与动机¶

1. 领域背景¶

合成孔径雷达 (SAR) 具备全天候、全天时地球观测能力，在灾害监测、环境监控和城市管理中不可替代。语义分割是将复杂 SAR 数据转化为可操作信息的核心任务。

2. 现有方法的不足¶

SAR 固有挑战：相干成像导致乘性散斑噪声、侧视几何引起叠掩/前缩/阴影畸变、雷达后向散射导致语义模糊（不同类别可能有相同外观）
极端域偏移：不同传感器（Sentinel-1/ALOS-2/Capella）、频带 (C/L/X)、极化模式 (HH/HV/VV/VH)、入射角导致数据特性碎片化，模型跨域迁移灾难性失败
现有基础模型不足：光学基础模型（SatMAE, SkySense）不适应 SAR 物理特性；SAR 模型多聚焦目标检测而非稠密分割，且未针对跨域泛化设计

3. 关键挑战¶

如何构建一个具有足够容量吸收 SAR 极端多样性、同时计算可行的基础模型，实现跨传感器、跨区域、跨极化的鲁棒语义分割。

4. 核心思路¶

采用稀疏 MoE 架构使参数量扩展到十亿级（捕获极端域多样性），同时保持每张图像的推理成本可控，并引入物理引导路由机制稳定专家选择。

5. 前人尝试与局限¶

CrossEarth 是首个针对域泛化分割的 VFM，但仅面向光学遥感
SARATR-X 等 SAR 基础模型聚焦目标识别而非稠密分割
现有方法常依赖配对光学图像辅助 SAR 分割，泛化能力受限

6. 解决方案概述¶

三管齐下：(1) 物理引导稀疏 MoE 基础模型 CrossEarth-SAR；(2) 200K 规模弱+全监督数据集 CrossEarth-SAR-200K；(3) 22 个子基准覆盖 8 种域差距的评估体系。

方法详解¶

整体框架¶

在 DINOv2 (ViT) 骨干上，将每个 block 的 FFN 替换为稀疏 MoE（n 个 expert，每次激活 top-k 个），输入 SAR 图像复制为 3 通道后前传。并行计算三个 SAR 物理描述符指导路由。解码器采用 Mask2Former。训练联合优化分割损失和负载均衡损失。

关键设计一：SAR 物理描述符¶

做什么：为每张 SAR 图像计算三个标量物理特征，提供稳定的域感知信号
核心思路：三个描述符分别刻画成像几何、雷达系统和目标散射特性
方向熵 H_DE：衡量梯度方向分布的均匀程度，刻画成像几何差异
等效视数 ENL：μ²/σ² 衡量散斑强度，刻画雷达系统噪声特性
局部粗糙度 R_LR：块均值方差，刻画纹理变化程度
设计动机：标准路由器基于学习的 token embedding 选择专家，但 SAR 异质数据导致 embedding 剧烈波动 (Routing Instability)，物理描述符提供稳定的域先验信号

关键设计二：物理引导稀疏 MoE¶

做什么：扩展模型容量到十亿参数，同时保持推理效率
核心思路：每个 ViT block 中，token embedding 与物理描述符拼接后送入路由器，路由器选择 top-k 个专家，加权聚合专家输出
设计动机：密集扩大网络计算成本不可承受；稀疏 MoE 通过多专家设计允许不同专家专注不同 SAR 特性，while 稀疏激活保证推理成本可控
负载均衡损失：L_BC = λ·n·Σ(f_k·p_k)，防止专家坍塌，λ=0.005

关键设计三：CrossEarth-SAR-200K 数据集¶

做什么：构建大规模 SAR 语义分割训练数据
核心思路：40K 全监督标注 + 160K 弱监督（用 CrossEarth 光学模型分割配对光学图像生成伪标签）
设计动机：SAR 标注数据稀缺，需大规模数据支撑十亿参数模型预训练
伪标签质量：4 个模型在 1K 样本上的 Mean Agreement 达 75.88%，高于 OpenEarthMap-SAR 的 63.20%

关键设计四：Earth-Adapter (SAR RS-PEFT)¶

做什么：下游任务参数高效微调
核心思路：冻结骨干，仅训练解码器和适配器

损失函数¶

总损失 = 分割损失 L_seg + 负载均衡损失 L_BC，L_BC 权重 λ=0.005。

实验关键数据¶

主实验：单域差距基准 (Table 2, 12 个基准的平均 mIoU)¶

方法	参数量	单域差距 Avg.
DINOv2 (Baseline)	300M	55.5
DINOv3	300M	53.0
MTP	300M	44.7
SARATR-X	60M	49.3
CrossEarth-SAR-S	90M (20M activated)	59.7
CrossEarth-SAR-B	300M (80M activated)	61.1
CrossEarth-SAR-L	1.3B (300M activated)	61.9
CrossEarth-SAR-L*	1.3B (300M activated)	62.7

关键极化/复值基准 (Table 2)¶

基准	DINOv2	CrossEarth-SAR-L	提升
VV2F	65.7	73.8	+8.1
HH2F	56.8	72.3	+15.5
F2VV	63.2	69.8	+6.6
F2HH	55.2	67.1	+11.9
C(r)2R	71.3	76.4	+5.1

多域差距基准 (Table 3, 10 个基准的平均 mIoU)¶

方法	2+3 域差距 Avg.
DINOv2 (Baseline)	24.3
CrossEarth-SAR-S	24.8
CrossEarth-SAR-L	27.7
CrossEarth-SAR-L*	28.5

消融实验 (Table 5-6)¶

消融内容	mIoU	增益
仅 40K 全监督	45.1	-14.3
CrossEarth-SAR-200K (无 MoE)	59.4	+0.0
+ plain MoE	61.1	+1.7
+ L_BC	62.2	+2.8
+ 物理描述符	61.6	+2.2
+ 两者	62.4	+3.0

关键发现¶

数据规模至关重要：200K 数据比 40K 全监督提升 14.3% mIoU
伪标签有效：40K 伪标签带来的提升甚至大于 40K 真实标签
物理描述符和负载均衡互补：单独使用分别提升 +2.2% 和 +2.8%，组合达 +3.0%
专家数量 n=6, top-k=1 最优：增加 top-k 反而降低性能（数据规模下单专家专攻更优）
物理描述符敏感性：H_DE 对极化最敏感 (73.47%)，ENL 对复值最敏感 (75.97%)，R_LR 对区域最敏感 (37.49%)
专家层级专攻：Expert 3/4 主导早期层（低级 SAR 线索），Expert 1/2/5/6 活跃于中间层（几何/纹理），Expert 1/5 集中于深层（高级语义）
小模型也很强：90M CrossEarth-SAR-S 在 HH2F 基准上超越 300M DINOv2 达 11.7%

亮点与洞察¶

物理引导路由是核心创新：将 SAR 物理先验（方向熵、等效视数、局部粗糙度）显式注入 MoE 路由，解决异质 SAR 数据导致的路由不稳定问题
稀疏 MoE 架构巧妙解决了容量与效率的矛盾：1.3B 参数但激活参数仅 300M
完整生态建设：不仅是模型，还包括 200K 数据集 + 22 个基准，推动 SAR 域泛化研究标准化
专家层级专攻的可视化分析揭示了有意义的模式：浅层专注散斑、中层处理几何纹理、深层学习语义

局限性 / 可改进方向¶

多域差距 (2-3 gaps) 场景性能仍有较大提升空间（绝对 mIoU 仅 ~28%）
伪标签质量受限于光学模型 CrossEarth 的能力，存在标签噪声
持续预训练需 16×A100 GPU，计算成本高昂
仅验证语义分割任务，未拓展到变化检测、目标识别等其他下游任务
D2F 等部分基准上未超越 Baseline，多域差距泛化仍是开放问题

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首个十亿级 SAR VFM，物理引导 MoE 路由机制新颖，三个物物描述符设计有 domain knowledge)
实验充分度: ⭐⭐⭐⭐⭐ (22 个基准覆盖 8 种域差距，与 10+ 方法对比，消融实验覆盖数据/MoE/学习率/专家数量/物理描述符)
写作质量: ⭐⭐⭐⭐ (结构清晰，问题定义精准，可视化丰富；论文较长但信息密度高)
价值: ⭐⭐⭐⭐⭐ (填补 SAR 域泛化基础模型空白，提供数据集+基准+模型全栈贡献，开源代码和数据)