CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation¶
会议: CVPR2026 arXiv: 2603.12008 代码: VisionXLab/CrossEarth-SAR 领域: 语义分割 关键词: SAR语义分割, 视觉基础模型, 混合专家(MoE), 域泛化, 遥感
一句话总结¶
提出首个十亿参数级SAR视觉基础模型CrossEarth-SAR,通过物理引导的稀疏MoE架构结合SAR物理描述子,在22个跨域语义分割基准中的20个取得SOTA,部分multi-gap场景超越已有方法10%+ mIoU。
背景与动机¶
- SAR全天候观测优势:SAR不受天气和光照限制,是灾害监测、环境监测、城市管理等时间敏感应用的关键工具,但其语义理解远比可见光域困难。
- SAR固有成像挑战:相干成像引入乘性散斑噪声、侧视几何导致叠掩/前缩/阴影等空间畸变、雷达后向散射而非颜色导致语义歧义——这三者共同破坏了现代视觉模型的基本假设。
- 极端域碎片化问题:SAR数据因传感器平台(Sentinel-1/ALOS-2/Capella)、频段(C/L/X)、极化模式(HH/HV/VH/VV)、入射角等参数差异,呈严重域碎片化,模型跨域迁移时性能灾难性下降。
- 现有基础模型不适配SAR:SatMAE、SkySense等地理空间基础模型主要面向光学多光谱数据,架构和预训练策略未考虑SAR后向散射物理和噪声特性。
- 缺乏统一DG评测标准:SAR跨域语义分割领域缺少系统化的域泛化基准,阻碍了方法的公平比较和推进。
- 大规模SAR标注数据稀缺:高质量SAR语义分割标注获取困难,限制了大模型训练。
方法详解¶
整体框架¶
CrossEarth-SAR在DINOv2 ViT骨干上集成物理引导稀疏MoE,将原始FFN替换为包含路由器和多个专家的MoE模块。输入SAR图像复制为3通道后经ViT编码,同时计算3个SAR物理描述子辅助路由,最终由Mask2Former解码器生成分割预测。提供S/B/L三种规模(90M/300M/1.3B参数,激活参数20M/80M/300M)。
SAR物理描述子¶
设计SAR Physical Operator \(g_{\text{sar}}(\cdot)\)计算三个物理描述子,为路由器提供稳定的物理先验:
- 方向熵 \(H_{DE}\)(成像几何):通过Sobel梯度方向直方图的熵量化图像结构规则性,低值→明确线性边缘结构,高值→复杂不规则结构
- 等效视数 ENL(雷达系统):\(\text{ENL} = (\mu/\sigma)^2\),度量散斑噪声强度,高值→散斑弱/统计稳定,低值→噪声波动大
- 局部粗糙度 \(R_{LR}\)(目标散射):分块均值方差,捕获纹理变异性,高值→复杂纹理,低值→平滑纹理
三者拼接为 \(s = [H_{DE}, \text{ENL}, R_{LR}] \in \mathbb{R}^3\),在各ViT block中与token嵌入拼接后送入路由器。
物理引导稀疏MoE¶
- 路由器:将token嵌入 \(Z\) 与描述子 \(S\) 拼接后计算softmax得分 \(\pi = \text{softmax}(W_r[Z \| S] + b_r)\),选Top-k个专家
- Token级MoE聚合:\(\tilde{z} = \sum_{k \in \mathcal{I}} g_k \cdot E_k(z)\),其中门控权重为归一化的路由得分
- 最优配置:n=6个专家、Top-k=1激活,实现计算效率与容量的平衡
损失函数¶
\[\mathcal{L} = \mathcal{L}_{\text{seg}} + \mathcal{L}_{\text{BC}}\]
- \(\mathcal{L}_{\text{seg}}\):Mask2Former分割损失
- \(\mathcal{L}_{\text{BC}} = \lambda_{\text{BC}} \cdot n \sum_{k=1}^{n} f_k p_k\)(负载均衡损失,\(\lambda_{\text{BC}}=0.005\)),防止专家坍塌
数据与基准¶
- CrossEarth-SAR-200K:整合公开SAR数据(全监督40K)+ 收集数据(弱监督伪标签160K),覆盖6大洲数百城市,图像统一裁剪/缩放至512×512
- 22个DG基准:跨8类域差(区域/极化/复数值/区域+极化/区域+平台/区域+微波频段/区域+极化+频段/区域+平台+频段),基于6个公开数据集构建
实验关键数据¶
单域差场景(Tab.2)¶
| 方法 | 参数量 | N2S | VV2F | HH2F | C(r)2R | 12基准均值 |
|---|---|---|---|---|---|---|
| DINOv2 (Baseline) | 300M | 32.3 | 65.7 | 56.8 | 71.3 | 55.5 |
| DINOv3 | 300M | 33.7 | 48.3 | 50.6 | 69.9 | 53.0 |
| MTP | 300M | 30.6 | 30.4 | 36.0 | 70.8 | 44.7 |
| CrossEarth-SAR-L | 1.3B(300M) | 37.8 | 73.8 | 72.3 | 76.4 | 61.9 |
| CrossEarth-SAR-L* | 1.3B(300M) | 38.0 | 73.9 | 71.8 | 76.9 | 62.7 |
- 单域差12个基准均值:CrossEarth-SAR-L*达62.7%,超越Baseline +7.2%
- HH2F提升最大:+15.5% mIoU(56.8→72.3)
多域差场景(Tab.3)¶
| 方法 | 参数量 | F2A | A2F | O2D | S2A | D2F | W2D | 10基准均值 |
|---|---|---|---|---|---|---|---|---|
| DINOv2 (Baseline) | 300M | 13.4 | 15.5 | 17.8 | 55.9 | 26.0 | 16.7 | 24.3 |
| CrossEarth-SAR-L* | 1.3B(300M) | 16.1 | 27.0 | 23.1 | 57.9 | 26.5 | 25.6 | 28.5 |
- 多域差10个基准均值:+4.2%;A2F基准提升最大:+11.5%
消融实验(Tab.5-6)¶
- 伪标签有效性:仅40K全监督45.1% → 加入160K弱监督59.4%(+14.3%)
- MoE设计:无负载均衡无描述子61.1% → 完整方案62.4%(+1.3%)
- 物理描述子:三个描述子各自对不同域差有独立贡献,组合使用效果最佳
- 专家数n:3→4→5→6,性能单调上升(60.9→62.4)
- Top-k选择:k=1最优(62.4),k=2/3反而下降
亮点¶
- 首个十亿参数级SAR基础模型:稀疏MoE使参数量扩至十亿级而保持推理代价可控(仅激活300M参数)
- 物理引导路由机制:三个SAR物理描述子解决MoE在SAR异构数据上的路由不稳定问题,设计巧妙且物理意义明确
- 系统性贡献:同时推出200K大规模预训练数据集+22个DG基准+S/B/L三种模型规格,形成完整的研究基础设施
- 22个基准中20个SOTA:覆盖单/双/三域差的全面验证,部分场景提升超过10% mIoU
局限性 / 可改进方向¶
- 伪标签依赖光学配对图像的CrossEarth模型生成,质量受限于光学-SAR匹配精度,部分场景标注可靠性存疑
- 多域差场景(如D2O、D2F)提升有限甚至略低于Baseline,说明三域差泛化仍是开放问题
- 预训练需要16×A100 80GB,计算资源门槛极高,限制了社区复现和应用
- 物理描述子为手工设计的3维向量,信息量有限;可探索可学习的物理特征提取
- Top-k=1意味着每token仅激活一个专家,多专家协同能力未被充分利用
- 仅评测语义分割任务,未验证在目标检测、变化检测等其他SAR任务上的泛化性
与相关工作的对比¶
| 维度 | CrossEarth-SAR | CrossEarth(光学DG) | SARATR-X(SAR目标识别) | SatMAE/SkySense(光学FM) |
|---|---|---|---|---|
| 模态 | SAR专用 | 光学 | SAR | 光学/多光谱 |
| 任务 | 跨域语义分割 | 跨域语义分割 | 目标识别 | 多任务 |
| 架构 | MoE + ViT | ViT | HiViT | ViT |
| 参数量 | 1.3B(稀疏) | 300M | 60M | 300M |
| 物理先验 | SAR描述子引导路由 | 无 | 无 | 无 |
| DG基准 | 22个/8类域差 | 光学DG | 无系统DG评测 | 无系统DG评测 |
评分¶
- 新颖性: ⭐⭐⭐⭐ — 物理引导MoE路由在SAR领域是首创,三描述子设计有物理洞察
- 实验充分度: ⭐⭐⭐⭐⭐ — 22个基准覆盖8类域差,消融全面,可视化充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,但表格过多略显冗长
- 价值: ⭐⭐⭐⭐ — 完整生态(模型+数据+基准)对SAR社区有重要推动作用