WildSAT: Learning Satellite Image Representations from Wildlife Observations¶

会议: ICCV 2025
arXiv: 2412.14428
代码: https://github.com/cvl-umass/wildsat (有)
领域: Remote Sensing / Representation Learning
关键词: 遥感表征学习, 对比学习, 野生动物观测, 跨模态, 卫星图像

一句话总结¶

提出 WildSAT，利用公民科学平台上的数百万地理标记野生动物观测数据，通过对比学习将卫星图像、物种位置和文本描述对齐，显著提升遥感图像表征质量，并支持零样本文本检索。

研究背景与动机¶

遥感图像表征学习面临的核心问题是监督信号的获取。现有方案包括： - 自监督学习（SeCo、Prithvi）：利用时空不变性或掩码自编码器，但缺乏语义监督 - 有监督学习（SatlasPretrain）：大规模多任务标签，但标注代价高昂 - 跨模态学习（GRAFT、TaxaBind、RemoteCLIP）：对齐地面图像或文本，但主要关注人造特征（道路、建筑）

本文的关键洞察是：物种分布编码了丰富的生态与环境信息。例如山羊出现在崎岖山区，仙人掌鹪鹩栖息在沙漠仙人掌中——物种的栖息地偏好直接反映了当地自然环境特征。这种信息来自 iNaturalist 等平台的数亿观测数据，是免费且全球分布的。然而，利用野生动物观测来提升遥感表征的潜力此前几乎未被探索。

方法详解¶

整体框架¶

WildSAT 采用多模态对比学习框架，联合训练以下三种信号： 1. 卫星图像：不同时间的同一地点 Sentinel-2 图像提供时序增强 2. 物种位置：通过 SINR 模型将经纬度编码为位置向量，包含环境协变量（气候数据） 3. 文本描述：物种对应 Wikipedia 页面的栖息地、习性等文本，通过 GritLM 编码

图像编码器 \(f_\theta\) 可以是任意架构（ResNet50、ViT-B/16 等），输出三个线性投影头分别对应图像、文本和位置模态的嵌入。

关键设计¶

三路对比学习： - \(\mathcal{L}_{img}\)：同一地点不同时间的卫星图像互为正样本（加几何增强） - \(\mathcal{L}_{txt}\)：卫星图像嵌入与 Wikipedia 文本嵌入对齐 - \(\mathcal{L}_{loc}\)：卫星图像嵌入与 SINR 位置嵌入对齐

所有损失基于 InfoNCE，总目标为三者之和。

参数高效微调策略： - 域外预训练模型（如 ImageNet）：ResNet50 用 Scale and Shift Fine-tuning（仅调 BatchNorm），ViT 用 DoRa（仅调 Attention） - 随机初始化或同域预训练模型：全参数微调 - 这保证了不丢失原有领域知识

数据构建： - iNaturalist 数据集提供 3550 万观测、47375 种物种 - 对应 Sentinel-2 卫星图像（10m/pixel，512×512） - Wikipedia 文本提供 127484 个段落、37889 种物种 - 总计 980376 个训练样本

损失函数 / 训练策略¶

\[\min_\theta [\mathcal{L}_{img} + \mathcal{L}_{txt} + \mathcal{L}_{loc}]\]

每个对比损失均采用标准 InfoNCE：

\[\mathcal{L}_{con}(\mathbf{z}_i, \mathbf{e}_{1,...,n}) = -\log \frac{\exp(\mathbf{z}_i \cdot \mathbf{e}_i / \tau)}{\sum_j \exp(\mathbf{z}_i \cdot \mathbf{e}_j / \tau)}\]

训练时每个 image-location 对随机采样一个文本段落。

实验关键数据¶

主实验¶

在 7 个下游分类数据集 + 2 个分割数据集上评估 Linear Probing 性能（20 个基线模型）：

数据集	Base 平均	+WildSAT 平均	提升
AID	72.7	79.4	+6.7
EuroSAT	88.9	94.3	+5.4
RESISC45	77.8	83.5	+5.7
So2Sat20k	37.9	48.2	+10.3
UCM	81.8	87.9	+6.1
BEN20k	45.7	53.4	+7.7

WildSAT 在 115 个设置中的 108 个取得提升，平均提升 4.3%-10.4%。

与 CLIP-based 方法对比（ViT-B/16）：

方法	平均分类性能
TaxaBind	59.8%
GRAFT	65.0%
RemoteCLIP	71.0%
CLIP	71.6%
WildSAT	76.6%

消融实验¶

各模态贡献消融（Random ResNet50 → ImageNet ResNet50）：

loc	env	text	img-a	Random R50	ImageNet R50	Random ViT	ImageNet ViT
				24.3%	93.2%	25.2%	84.4%
✓				44.2%	95.0%	41.6%	—

仅位置信号即可为随机模型带来 +20% 的巨大提升
完整四模态组合效果最佳

分割任务结果：

模型	Cashew1k IoU	SAcrop3k IoU
Random	40.1% → 72.6%	18.0% → 20.3%
SatlasNet	55.2% → 71.0%	19.4% → 20.5%

关键发现¶

卫星预训练模型受益最大：SeCo、SatlasNet 等可提升高达 10%，因为 WildSAT 补充了栖息地相关信息
ViT 比 CNN 收益更大：Transformer 的灵活注意力机制更易适应多模态融合
WildSAT 减少了栖息地相关类别的误报：通过混淆矩阵分析，So2Sat20k 上所有类别的真正率提高，主要来自减少 "Scattered trees"、"Dense trees" 等栖息地类别的假阳性
支持零样本文本检索（如输入 "desert" 或 "ibex" 可检索对应地貌卫星图）

亮点与洞察¶

独特的监督信号：野生动物观测数据是免费、全球分布、自然产生的生态标签，与人造特征形成互补
通用框架：WildSAT 可以作为 continual pre-training 增强现有模型（SatlasNet、SeCo、Prithvi 均受益）
零样本能力：通过文本对齐实现地理位置的语义检索，这是先前遥感表征方法无法做到的
与人造特征（WikiSatNet）的互补性——自然环境信息和人造结构信息共同构建更完整的地表理解

局限与展望¶

物种观测数据存在地理偏差（欧美地区密度高，非洲、亚洲稀疏），可能影响全球泛化
仅使用 RGB 三通道，Sentinel-2 的多光谱优势未充分利用（附录有初步多光谱实验）
Wikipedia 文本质量参差不齐，部分物种描述可能不准确或缺失
线性探测评估可能低估了表征的全部能力，完整微调结果未提供

评分¶

维度	分数 (1-5)
创新性	4.5
技术深度	3.5
实验充分性	5
写作质量	4.5
实用价值	4.5
总评	4.5