CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2603.12008
代码: GitHub
领域: 遥感 / SAR 基础模型 / 域泛化语义分割
关键词: SAR, 基础模型, 物理引导MoE, 域泛化, 语义分割

一句话总结¶

提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR，在 DINOv2 基础上引入物理引导的稀疏 MoE 架构（用方向熵、等效视数、局部粗糙度三个 SAR 物理描述符引导路由），配套 200K 级预训练数据集和 22 个子基准，在 20/22 个跨域分割任务上达到 SOTA。

背景与动机¶

SAR 成像全天候全天时的优势使其对地球观测至关重要，但 SAR 面临三重域偏移挑战：(1) 散斑噪声破坏纹理特征；(2) 侧视几何引起严重空间扭曲（叠掩/透视缩短/阴影）；(3) 后向散射特性由表面粗糙度和介电常数决定，导致同类异貌、异类同貌。更严重的是传感器碎片化——不同平台（Sentinel-1, ALOS-2, Capella）、波段（C/L/X）、极化模式（HH/HV/VV/VH）、入射角产生了极端域特异性。现有 SAR 基础模型要么聚焦于目标检测，要么不是为跨域泛化设计。

核心问题¶

如何构建一个具备足够容量吸收 SAR 极端域多样性、同时保持可控推理成本的跨域泛化 SAR 语义分割基础模型？

方法详解¶

整体框架¶

在 DINOv2 ViT backbone 上将每个 block 的 FFN 替换为物理引导的稀疏 MoE，进行 200K 数据上的持续预训练（CPT），然后配合 Mask2Former 解码器在下游冻结 backbone 微调。提供 S/B/L 三个版本。

关键设计¶

SAR 物理描述符: 对每张输入图像计算三个物理量：(a) 方向熵 \(H_{DE}\) — 梯度方向直方图的熵，刻画成像几何特征；(b) 等效视数 ENL = \((\mu/\sigma)^2\) — 刻画散斑强度/雷达系统特性；(c) 局部粗糙度 \(R_{LR}\) — 块均值方差，刻画目标散射/纹理变异。三者拼接为 \(s \in \mathbb{R}^3\)
物理引导路由: 将 \(s\) 沿 token 维度 tile 为 \(S \in \mathbb{R}^{B \times N \times 3}\)，与 token 嵌入 \(Z\) 拼接后送入路由器计算各专家的 softmax 得分，选 top-k 专家激活。每个专家从 DINOv2 FFN 权重初始化
负载均衡: 引入 \(\mathcal{L}_{BC} = \lambda_{BC} \cdot n \cdot \sum_k f_k p_k\)（\(\lambda_{BC}=0.005\)）防止专家坍缩，总目标 \(\mathcal{L} = \mathcal{L}_{seg} + \mathcal{L}_{BC}\)
CrossEarth-SAR-200K 数据集: 整合 40K 有标注 + 160K 伪标注（用 CrossEarth 光学模型在配对光学图像上预测后迁移给 SAR），覆盖 109 个地区、6 大洲，达 203,240 张图像

损失函数 / 训练策略¶

CPT 阶段 18 epochs, batch 4, AdamW lr 3e-5, 16 × A100 (80GB)。下游 40k iterations, batch 2, lr 1e-4, backbone 冻结。Earth-Adapter (PEFT) 进一步提升。

实验关键数据¶

设置	指标(mIoU)	CrossEarth-SAR-L	DINOv2 基线	提升
单域差异 Avg (12项)	mIoU	62.7	55.5	+7.2
HH2F (极化)	mIoU	72.3	56.8	+15.5
VV2F (极化)	mIoU	73.8	65.7	+8.1
双域差异 Avg (10项)	mIoU	28.5	24.3	+4.2
三域差异 Avg (4项)	mIoU	—	—	+3.4~7.2

在 22 个基准中 20 个达到 SOTA。CrossEarth-SAR-L* (with PEFT) 在单域差异上平均提升 +7.2 mIoU。

消融实验要点¶

仅 40K 真标注 vs 200K 含伪标注：后者平均高 14.3% mIoU，证明伪标注大规模数据有效
纯 MoE（无物理引导无负载均衡）已提升 +1.7，加负载均衡 +2.8，加物理描述符 +2.2，二者结合 +3.0
6 专家 top-1 最优；增加 top-k 到 2/3 反而下降，200K 数据规模下单专家专化更优
三个物理描述符对不同域差异敏感性不同：\(H_{DE}\) 对极化和波段、ENL 对复数值、\(R_{LR}\) 对区域和平台

亮点¶

将 SAR 物理先验（散斑/几何/散射）编码为可微分描述符引导 MoE 路由，物理与学习的优雅结合
22 个子基准覆盖 8 种域差异组合，为 SAR 社区建立了首个统一 DG 评测标准
可视化显示不同专家自动分工：早层专注散斑统计，中层建模几何纹理，深层做高级语义

局限性 / 可改进方向¶

1.3B 参数量大，部署到资源受限的遥感平台存在挑战
伪标注质量受 CrossEarth 光学模型限制，mean agreement 仅 75.88%
可进一步探索光学-SAR 跨模态联合预训练

与相关工作的对比¶

vs SARATR-X (90M HiViT)：CrossEarth-SAR-L 在单域差异上高 3.0 mIoU，三域差异高 3.4+
vs DINOv3 (300M)：CrossEarth-SAR-L 单域差异 +9.7 mIoU
vs CrossEarth (光学)：本文专为 SAR 设计，填补了 SAR VFM 在 DG 语义分割上的空白
vs SatMAE/ScaleMAE/MTP：均在 SAR 域上表现显著更差

启发与关联¶

物理引导路由机制可推广到其他传感器特异性模态（如红外/多光谱）
稀疏 MoE 在域多样性极大的数据上优于密集缩放的经验值得关注

评分¶

新颖性: ⭐⭐⭐⭐ 物理描述符引导 MoE 路由创新且有理论依据
实验充分度: ⭐⭐⭐⭐⭐ 22 个基准、16 种对比方法、详尽消融和可视化
写作质量: ⭐⭐⭐⭐ 结构完整，物理先验解释清晰
价值: ⭐⭐⭐ 对遥感/SAR 社区价值高，对通用视觉社区价值中等