SARMAE: Masked Autoencoder for SAR Representation Learning¶

会议: CVPR2026 arXiv: 2512.16635 代码: SARMAE 领域: 语义分割 / SAR表征学习 关键词: SAR, 自监督预训练, Masked Autoencoder, 散斑噪声, 光学-SAR对齐, 遥感

一句话总结¶

提出 SARMAE 框架，通过百万级 SAR 数据集 SAR-1M、散斑感知表征增强 (SARE) 和光学语义锚约束 (SARC)，实现噪声鲁棒的 SAR 自监督预训练，在分类、检测和分割多个下游任务上取得 SOTA。

研究背景与动机¶

SAR 成像的独特优势与挑战：SAR 具有全天候、全天时成像能力，广泛用于海洋监测、灾害评估、城市分析等领域，但其固有的散斑噪声 (speckle noise) 导致语义内容低、结构线索弱，严重影响深度学习表征质量。
数据规模瓶颈：SAR 数据获取成本高昂，现有预训练数据集规模有限——SARATR-X 仅 180k 图像、SUMMIT 仅 560k 图像，远不足以支撑通用 SAR 表征学习。
光学预训练策略不适用：现有方法直接沿用光学图像预训练策略（如 MAE、MoCo），忽视了 SAR 散斑噪声的物理特性——散斑是乘性噪声而非加性高斯噪声，需专门建模。
单模态预训练的语义局限：仅依靠 SAR 数据预训练，受限于 SAR 图像本身较低的语义可辨识度，学到的表征缺乏语义丰富性和泛化性。
现有 SAR 基础模型的不足：SARATR-X 和 SUMMIT 虽尝试了统一预训练，但均未建模 SAR 散斑的物理先验，也未利用多模态互补信息。
光学图像的语义引导潜力：光学图像具有更清晰的语义结构，若能利用 SAR-光学配对数据进行跨模态对齐，可显著提升 SAR 表征的语义质量。

方法详解¶

整体框架¶

SARMAE 基于 MAE 架构，包含两个分支：

SAR 分支：ViT 编码器 + Transformer 解码器，遵循 MAE 流程（75% 随机掩码），加入 SARE 模块处理散斑噪声
光学分支：冻结的 DINOv3 编码器（与 SAR 分支共享 ViT 架构），为配对数据提供语义锚点

对于有配对光学图像的 SAR 数据，两个分支协同工作；无配对的 SAR 数据仅通过 SAR 分支处理。

关键设计一：散斑感知表征增强 (SARE)¶

核心思想：将基于物理建模的散斑噪声显式注入预训练过程，训练模型从噪声输入重建干净图像。

散斑物理模型：多视 SAR 强度图像服从 Gamma 分布 \(Z \sim \text{Gamma}(L, \bar{I}/L)\)，其中 \(L\) 为视数，\(\bar{I}\) 为真实后向散射强度
合成噪声注入：对输入 patch \(x\) 以较低合成视数 \(L_{\text{syn}}\) 从 Gamma 分布采样生成更高噪声版本 \(x'\)，保持像素均值不变但增大方差
去噪重建任务：对 \(x'\) 进行随机掩码后送入编码器，训练解码器重建原始 \(x\)（而非噪声版本）
多噪声类型：除 Gamma 噪声外，还加入 Rayleigh、Gaussian、Uniform 噪声增强鲁棒性
损失函数：\(\mathcal{L}_{\text{SARE}} = \frac{1}{|\mathcal{M}|} \sum_{p \in \mathcal{M}} \| D(E_{\text{SAR}}(\tilde{x}'))_p - x_p \|_2^2\)

关键设计二：语义锚表征约束 (SARC)¶

核心思想：利用配对光学图像的语义特征作为锚点，引导 SAR 编码器对齐学习。

SAR 图像经掩码后通过 SAR 编码器得到可见 patch 嵌入 \(f_{\text{SAR}}^i\)
光学图像（不掩码）通过冻结 DINOv3 编码器获取完整 patch 嵌入 \(f_{\text{OPT}}^i\)
对空间对应的 patch 对施加逐 patch 余弦距离损失：\(\mathcal{L}_{\text{SARC}} = \frac{1}{|\mathcal{V}|} \sum_{i \in \mathcal{V}} \left(1 - \frac{f_{\text{SAR}}^i \cdot f_{\text{OPT}}^i}{\|f_{\text{SAR}}^i\|_2 \|f_{\text{OPT}}^i\|_2}\right)\)

总预训练损失¶

\[\mathcal{L}_{\text{pretrain}} = \mathcal{L}_{\text{SARE}} + \lambda \mathcal{L}_{\text{SARC}}, \quad \lambda = 0.1\]

SAR-1M 数据集¶

首个百万级 SAR 数据集，聚合 18 个公开数据集，涵盖 57 个类别
130 万 SAR 图像 + 100 万配对光学图像，共 230 万样本
覆盖 Sentinel-1、Gaofen-3、RadarSat-2、TerraSAR-X 等多传感器
多频段 (C/X/Ku/Ka)、多极化 (HH/HV/VV/VH)、多分辨率 (0.1m–60m)

实验¶

主要结果¶

任务	数据集	指标	SARMAE (ViT-B)	SARMAE (ViT-L)	前 SOTA
分类	FUSAR-SHIP (40-shot)	Top1 Acc	89.30%	90.86%	87.61% (Copernicus FM)
分类	FUSAR-SHIP (30%)	Top1 Acc	92.92%	92.80%	71.91% (SUMMIT)
分类	MSTAR (40-shot)	Top1 Acc	96.70%	97.24%	91.60% (SAR-JEPA)
检测	SARDet-100k	mAP	57.90%	63.10%	57.30% (SARATR-X)
检测	SSDD	mAP	68.10%	69.30%	67.50% (SARATR-X)
旋转检测	RSAR	mAP	66.80%	72.20%	64.82% (O-RCNN)
分割	AIR-PolSAR-Seg (多类)	mIoU	66.53%	67.51%	52.58% (ANN)
分割	AIR-PolSAR-Seg (水体)	IoU	92.31%	93.06%	89.29% (DANet)

消融实验¶

模型	预训练数据	SARE	SARC	FUSAR	SSDD	AIR-PolSAR-Seg
MAE (Baseline)	ImageNet-1K	✗	✗	75.40	64.00	60.28
MAE	SAR-1M (仅SAR)	✗	✗	82.22	64.20	64.36
MAE + 噪声	SAR-1M (仅SAR)	✓	✗	86.80	64.40	65.15
SARMAE	SAR-1M (SAR/OPT)	✓	✓	89.30	68.10	66.53

关键发现¶

域内预训练收益显著：SAR-1M 预训练比 ImageNet 预训练在 FUSAR 上提升 +6.82%，证明 SAR 与自然图像存在显著分布差异
SARE 贡献：加入散斑噪声建模后分类提升 +4.58%，注意力图显示模型能更准确地聚焦语义目标，甚至捕获细微语义相关物体
SARC 贡献：在 SSDD 检测上带来 +3.7% mAP 提升，有效缓解因散斑干扰导致的虚警问题；重建可视化显示 SARC 能恢复局部场景结构
扩展性良好：ViT-B → ViT-L 在旋转检测上提升 +5.4 mAP
DINOv3 直接微调不行：冻结 DINOv3 直接微调 SAR 效果差 (74.25%)，说明 SARC 的有效性源于显式 SAR-光学对齐

亮点¶

构建首个百万级 SAR 数据集 SAR-1M，填补大规模 SAR 预训练数据空白
基于物理模型（Gamma 分布）的散斑噪声注入设计，使预训练过程直接适配 SAR 成像物理特性
SARE 和 SARC 互补配合：前者让模型理解噪声、后者提供清晰语义引导
在分类/检测/分割三大任务的多个数据集上全面 SOTA，泛化性强

局限性¶

预训练资源消耗大（300 epochs，batch 1024，A800 GPU），普通实验室难以复现
SARC 依赖 SAR-光学配对数据，无配对区域（如极地、高纬度）的 SAR 数据无法受益于跨模态对齐
光学分支使用冻结 DINOv3，未探索联合训练或其他光学教师模型的潜在优势
SAR-1M 虽然涵盖多传感器，但 18 个源数据集的标注标准和质量差异可能引入偏置
下游任务评估未覆盖变化检测、目标跟踪等更多 SAR 应用场景

评分¶

新颖性: ⭐⭐⭐⭐ — SARE 的物理噪声建模和 SARC 的跨模态对齐设计有新意，SAR-1M 数据集是重要贡献
实验充分度: ⭐⭐⭐⭐⭐ — 三大任务、多个数据集、完整消融，结果一致且显著
写作质量: ⭐⭐⭐⭐ — 结构清晰，物理建模公式严谨，可视化丰富
价值: ⭐⭐⭐⭐⭐ — 数据集+框架+SOTA，对 SAR 社区有重要推动作用