Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling¶

会议: ICCV 2025
arXiv: 2406.11933
代码: SelectiveMAE
领域: 遥感图像 / 自监督学习
关键词: 遥感基础模型, 掩码图像建模, 大规模数据集, 高效预训练, SelectiveMAE

一句话总结¶

提出一个遥感模型预训练流水线，包括 1300 万张光学遥感图像数据集 OpticalRS-13M 和基于语义丰富度选择性编码/重建的高效 MIM 方法 SelectiveMAE，仅用 40% 图像 patch 即可训练出与全量 patch 相当的模型，同时实现 2 倍以上加速。

研究背景与动机¶

遥感基础模型（RSFM）的发展依赖于大规模自监督预训练，其中掩码图像建模（MIM）是核心方法。然而，现有遥感领域面临两大瓶颈：

数据集规模与多样性不足：现有遥感数据集（如 MillionAID ~100 万张）远小于自然图像数据集（ImageNet-21k ~1400 万），且多以场景级分类为主，缺少目标检测与像素分割的细粒度信息，限制了 MIM 学习泛化表征的能力。

MIM 训练效率低下：传统 MAE 需要重建所有被掩码的 patch（通常 75%），而遥感图像的一个显著特点是前景稀疏、背景冗余。对大量无语义信息的背景 patch 进行编码和重建造成了不必要的计算开销。以 ViT-B 在 100 万张遥感图像上预训练为例，需要 107 小时（8×A100），扩展到千万级数据集时代价更加高昂。

核心矛盾：如何在遥感场景下既扩大数据规模提升表征质量，又降低 MIM 的计算开销？

切入角度：作者从两个问题出发——(1) 是否需要重建所有冗余背景 patch？(2) 能否进一步压缩编码器的可见 patch 比例（如 ≤25% → ≤15%）？基于此提出了选择性编码与重建策略。

方法详解¶

整体框架¶

本文提出的流水线包含两个核心部分： - OpticalRS-13M 数据集构建：收集、筛选、切片、去重形成 1300 万张光学遥感图像 - SelectiveMAE 高效预训练：通过 HOG 特征量化 patch 语义丰富度，选择性编码和部分重建

关键设计¶

1. OpticalRS-13M 数据集¶

基于 DiRS 原则（多样性、丰富性、可扩展性）收集近十年公开遥感数据集，经过以下预处理： - 排除：仅保留可见光图像，排除多光谱和 SAR 数据 - 切片：将高分辨率图像随机裁剪为 64×64 到 1024×1024 的子图 - 去重：两阶段去重——感知哈希粗筛 + 人工精审

最终数据集包含 12 个主类别（含"事件"类如火灾、洪水等），相较之前数据集至少大 4 倍，且在 t-SNE 可视化中展现出更丰富的特征分布。

2. 部分重建（Partial Reconstruction）¶

传统 MAE 掩码比为 75%，重建所有掩码 patch。SelectiveMAE 引入重建比 \(r\)（默认 25%），仅重建语义最丰富的 patch：

用 HOG 算法计算每个 patch 的方向梯度直方图特征值
按 HOG 值排序，选择 Top-\(\lfloor r \times N \rfloor\) 个 patch 进行重建
解码器采用 CrossMAE 的轻量交叉注意力设计

设计动机：遥感图像中大量背景 patch 的重建对表征学习贡献有限，选择语义丰富的 patch 重建可以在不损失性能的前提下大幅提升吞吐量。

3. 渐进式语义 Token 选择（PSTS）¶

直接将掩码比提高到 85%（仅 15% 可见 patch）会导致梯度爆炸和训练不稳定。受课程学习启发，PSTS 模块分阶段动态选择编码 patch：

初始化：用 HOG 选择 \(s = (1-m)/2\) 比例的高语义 patch 作为种子集 \(S^I\)
阶段 1（近邻）：选择与种子集余弦距离最小的 patch → 语义相似，容易学
阶段 2（互补）：选择与种子集距离最大的 patch → 语义互补，更具挑战
阶段 3（随机）：随机选择 → 增强鲁棒性

这种"从易到难"的策略有效避免了高掩码比下的训练崩溃。

损失函数 / 训练策略¶

损失函数：MSE（与 MAE 一致），仅在选定的重建 patch 上计算
学习率按 \(m/r\) 比例缩放以匹配 MAE 的损失方差
12 层解码器，85% 掩码比，25% 重建比
800 epoch 预训练时 warmup 60 epoch

实验关键数据¶

主实验¶

模型	骨干	吞吐量/min	AID 20%/50%	RESISC-45 10%/20%	DIOR mAP50	LoveDA mIoU
MAE†	ViT-B	264k	96.58/98.02	92.44/94.43	75.40	52.80
SelectiveMAE†	ViT-B	556k	96.90/98.12	93.35/94.58	75.70	53.05
SelectiveMAE	ViT-L	533k	97.49/98.52	94.73/96.36	78.70	53.92
OREOLE	ViT-G(914M)	-	96.71/-	-/-	77.40	54.00

†: 在 400 万子集上预训练 800 epoch。SelectiveMAE 在所有主流遥感任务上达到 SOTA，且吞吐量是 MAE 的 2.1 倍。

消融实验¶

方法	吞吐量/min	AID 20%/50%	RESISC-45 10%/20%
Adamae (2.36M)	498k	88.78/91.25	85.72/87.44
Swin-B (88M)	356k	93.21/96.48	89.94/93.72
HOG (无参数)	556k	93.17/96.12	89.21/92.31

HOG 作为无参数方法，在速度上远超学习型方法（Swin-B），性能接近但快 56%。

关键发现¶

40% patch 足矣：仅用 15% 编码 + 25% 重建即可训练出与 MAE 相当甚至更优的模型
数据集多样性 > 数量：等量吞吐下，300 万张 × 267 epoch 优于 1300 万张 × 67 epoch，表明 OpticalRS-13M 数据多样性高，需更长训练才能充分利用
效率优势随模型增大更显著：ViT-L 加速比（2.3×）> ViT-B（2.1×），GPU 显存节省 1.6-1.8×
渐进策略关键：far-near-random 顺序会导致梯度爆炸，near-far-random 性能提升约 4%

亮点与洞察¶

问题驱动的方法设计：从遥感图像"前景稀疏、背景冗余"的固有特征出发，自然地导出了选择性编码和重建策略
仅用 HOG 无参数方法：避免了引入额外可训练模块的复杂性，简洁高效
课程学习思想的巧妙应用：PSTS 解决了高掩码比下的训练不稳定问题
端到端流水线：从数据创建到高效预训练的完整方案，具有良好的工程实用价值

局限与展望¶

目前仅支持可见光图像，未涵盖多光谱、SAR 等模态
HOG 作为手工特征，可能无法捕获高层语义信息
PSTS 的阶段划分（near → far → random）较为粗粒度，可考虑更平滑的过渡
未探讨 SelectiveMAE 在自然图像领域的迁移性

评分¶

新颖性: ⭐⭐⭐ — 选择性重建和渐进 token 选择有创新，但整体思路由 CrossMAE 延伸而来
技术深度: ⭐⭐⭐⭐ — 分析清晰系统，实验全面
实用价值: ⭐⭐⭐⭐⭐ — 2倍加速+大规模数据集，对遥感社区有重大实用意义
写作质量: ⭐⭐⭐⭐ — 逻辑清楚，图表精美