跳转至

Towards a Unified Copernicus Foundation Model for Earth Vision

会议: ICCV 2025
arXiv: 2503.11849
代码: https://github.com/zhu-xlab/Copernicus-FM (有)
领域: 遥感 / 地球观测基础模型
关键词: 地球观测基础模型, 动态超网络, 多传感器融合, 元数据编码, Copernicus Sentinel

一句话总结

提出由Copernicus-Pretrain(1870万张覆盖全部Sentinel任务的对齐图像)、Copernicus-FM(通过扩展动态超网络和Fourier元数据编码处理任意光谱/非光谱传感器的统一基础模型)、Copernicus-Bench(15个分层下游任务基准)三位一体的完整EO基础模型体系,首次实现从地表到大气的跨模态联合预训练,在15个下游任务中11个以冻结编码器超越全参数监督训练。

背景与动机

地球观测(EO)基础模型近年发展迅速,但面临三重瓶颈: 1. 传感器多样性不足:现有预训练数据集(如SSL4EO-S12、SatlasPretrain、MMEarth)集中在Sentinel-1/2和Landsat等中高分辨率地表传感器,完全忽略了Sentinel-3(300m分辨率、21个OLCI波段、高时间频率、全球覆盖)和Sentinel-5P(1km分辨率、大气成分变量NO2/CO/SO2/O3),而后者对气候研究至关重要 2. 模型架构刚性:主流EO基础模型要么用独立编码器处理不同模态(如DeCUR、CROMA、SkySense),要么用联合编码器但绑定固定数量模态(如USat)。即便DOFA引入了波长条件的动态patch embedding,也无法处理没有光谱响应的非光谱变量(大气成分、高程),且忽略了元数据信息 3. 评测基准片面:现有基准(GEO-Bench 12个任务、PANGAEA、FoMo-Bench)以地表光学/SAR任务为主,缺乏S3/S5P相关的粗尺度和大气任务评估,无法衡量模型在完整EO任务链上的表现

这三个瓶颈共同阻碍了将EO与天气/气候预测系统真正连接的统一基础模型的发展。

核心问题

如何突破传感器类型(SAR/多光谱/大气/高程)、空间分辨率(10m–1km)、模态属性(光谱vs非光谱)的壁垒,构建一个能处理任意光谱或非光谱传感器输入灵活整合地理/空间/时间元数据的统一EO基础模型?同时,如何建立覆盖全Sentinel系列、从预处理到专业应用的分层评测体系?

方法详解

整体框架

工作由三个协同组件构成,形成"数据-模型-评测"闭环: - Copernicus-Pretrain:整合Sentinel-1(SAR,10m)、Sentinel-2(多光谱,10m)、Sentinel-3 OLCI(多光谱辐亮度,300m)、Sentinel-5P(大气变量NO2/CO/SO2/O3,1km)、Copernicus DEM(高程,30m)共8种模态的1870万张图像,按ERA5再分析数据集的0.25°×0.25°网格组织为约31万个网格单元(其中22万个具有全模态对齐) - Copernicus-FM:基于ViT-Base的统一模型,核心创新是扩展的动态超网络(光谱超网络+变量超网络)进行传感器自适应的patch embedding,加上统一Fourier编码的元数据集成,以MAE掩码重建+持续蒸馏为训练目标 - Copernicus-Bench:15个下游任务,分为L1预处理(2个云检测)、L2基础应用(8个土地覆盖分类/分割)、L3专业应用(5个含洪水检测、生物量回归、空气质量回归),覆盖S1/S2/S3/S5P所有Sentinel模态,其中6个为新构建数据集

关键设计

  1. 光谱感知超网络(Spectral Hypernetwork)
  2. 输入:每个光谱通道的中心波长λ和带宽δ(如S2有13个波段,每个波段有对应的λ和δ值)
  3. 编码:首先通过Fourier编码 FE(x) = [cos(2πx/ωᵢ), sin(2πx/ωᵢ)] 将波长和带宽分别映射为D维向量V_λ和V_δ,然后相加得到光谱编码V_spec ∈ ℝ^{C×D}
  4. 权重生成:V_spec经MLP + 多头注意力层变换为权重向量M_w ∈ ℝ^{C×p²D}和偏置向量M_b ∈ ℝ^{C×D},重塑为卷积核K_conv ∈ ℝ^{D×C×p×p}
  5. 动态patch尺寸(关键改进):借鉴FlexiViT的思想,动态重塑卷积核权重以适配不同模态的patch尺寸:S1/2用16×16、S3用8×8、S5P用4×4、DEM用64×64。这解决了原始DOFA要求固定patch尺寸导致的、在10m到1km分辨率跨度下计算量爆炸的问题

  6. 变量超网络(Variable Hypernetwork)

  7. 动机:对于没有光谱响应函数的非光谱模态(S5P的NO2/CO/SO2/O3大气变量、DEM高程),光谱超网络无法处理
  8. 方案:使用冻结的Llama 3.2-1B LLM编码器将变量名(如"tropospheric NO2 column number density")编码为D维语义向量
  9. 优势:①一次性离线推理,零额外训练开销 ②天然保持变量间的语义关系(t-SNE可视化显示S5P变量自然聚类、EO模态与游戏/山脉等无关概念远离) ③理论上可扩展到任意新变量名
  10. 消融对比(Tab.10):LLM编码 > 光谱学引导 > 随机哈希,且LLM编码在所有任务上最稳定

  11. 统一Fourier元数据编码

  12. 三类元数据:地理位置(经纬度→拼接为D维向量Loc)、空间覆盖面积(由GSD×patch尺寸计算km²→Area)、时间(距1970-01-01的天数→Time)
  13. 数据增强时元数据自适应更新:随机裁剪后地理位置和面积随之动态调整
  14. 元数据丢弃策略:训练时以0.7概率随机丢弃各类元数据,使用可学习token替代缺失的元数据编码。消融实验(Tab.11)显示0.7丢弃率最优,过低(0.1/0.3)或过高(0.9)都不佳
  15. 各元数据贡献(Tab.12):地理位置提升最大(+18.9~21.3% OA on EuroSAT-S1),面积次之(+2.2%),时间再次(+0.7%)。经纬度格式优于笛卡尔坐标(x,y,z),真实裁剪后面积优于原始面积

损失函数 / 训练策略

  • MAE风格掩码重建:对每种模态的patch token以70%比例随机遮挡,经编码器(仅可见patch)和轻量Transformer解码器(512维,8层,16头)重建被遮挡patch。解码端使用与编码端对称的动态patch预测器(全连接层代替卷积层,因为是在展平的patch token上操作)
  • 持续蒸馏(Continual Distillation)
  • 从冻结的DINOv2 ViT-B/14蒸馏S2衍生的RGB表示(cosine similarity loss,权重0.1):锚定通用视觉知识,使得模型即使只在中低分辨率Sentinel图像上预训练,也能迁移到高分辨率/RGB数据
  • 从冻结的SoftCon ViT-B/14蒸馏S1/S2全通道表示(权重0.2):加速收敛、提供全局表示引导。作者发现该蒸馏的收益随训练更长/模型更大而递减
  • 训练配置:ViT-Base(768维,12层,12头),220K全模态网格子集,100 epochs,有效批大小288,基础学习率1.5e-4(线性缩放),10 epoch warmup + cosine衰减,AdamW(weight decay 0.05),总计512 A100 GPU小时(128节点小时×4 A100-40GB)

实验关键数据

主实验(Copernicus-Bench,Tab.4,冻结编码器 vs 监督全参数训练)

数据集 任务 指标 Copernicus-FM 监督ViT-S 监督ViT-B DOFA SoftCon CROMA
Cloud-S2 语义分割 mIoU 66.7 64.2 59.4 65.0 66.9 65.0
Cloud-S3 语义分割 mIoU 59.1
EuroSAT-S1 分类 OA 81.0
EuroSAT-S2 分类 OA 89.5
LC100Cls-S3 多标签分类 mAP 90.7
AQ-O3-S5P 回归 RMSE↓ 811.6

核心发现:Copernicus-FM在15个任务中11个以冻结编码器(更少可训练参数、更少迭代)超越了从头训练的监督基线。在S3和S5P任务上大幅领先(因为其他模型根本不支持这些模态),在S1/S2任务上与单模态/双模态SOTA基本持平或略优。

消融实验要点(Tab.2,ViT-Small在10K子集上)

配置 EuroSAT-S1(OA) EuroSAT-S2(OA) EuroSAT-RGB(OA) LC100-S3(mAP) AQ-O3(RMSE↓)
DOFA基线+动态patch 56.3 87.6 62.2 86.7 2218.0
+带宽Fourier编码 56.5 88.9 65.4 87.1 1710.7
+变量超网络 57.5 88.9 65.8 86.6 1598.1
+元数据编码 77.9 88.9 78.5 90.7 839.3
+持续蒸馏 81.0 89.5 78.9 90.7 811.6

元数据编码带来的提升最为显著,尤其在非光学模态上(EuroSAT-S1从57.5→77.9,提升20.4个点;AQ-O3从1598→839,RMSE降低近一半)。这说明地理位置等元数据对遥感任务的重要性被严重低估。

气候预测实验(Tab.5)

利用Copernicus-FM编码的网格嵌入进行ERA5气候参数回归预测(10年均值/标准差),网格嵌入+坐标组合取得最佳结果,甚至优于专门的位置编码器SatCLIP。证明了EO基础模型在连接遥感与气候研究方面的潜力。

亮点

  1. 系统性贡献:数据-模型-评测-应用四位一体,而非单点突破。Copernicus-Pretrain是迄今最大最多样的EO预训练数据集(8种模态,1870万图像),Copernicus-Bench是首个覆盖全Sentinel系列的分层基准
  2. 变量超网络的创新性:利用LLM编码器将变量名的语义知识引入遥感领域,优雅地解决了非光谱模态的统一建模问题,且零额外训练开销。t-SNE可视化证实LLM确实具有跨领域的变量语义理解能力
  3. 元数据整合的巨大潜力:消融实验极其清晰地展示了元数据(尤其是地理位置)对遥感任务的关键作用——某些任务上仅加入元数据就能带来20+%的性能提升,这对整个遥感社区都有启发意义
  4. EO-气候桥接的前沿探索:将EO基础模型的网格嵌入作为气候模型的高级地理表示,开辟了将EO嵌入集成到天气预报/气候预测系统中的新方向。全球0.25°嵌入数据集(Copernicus-Embed-025deg)具有极高的压缩比和实用价值
  5. 工程细节扎实:数据收集的高斯采样+极地采样+间隙填充策略、数据增强时元数据的动态自适应、S3/S5P新数据集的精心构建(含云检测过滤),体现了大规模系统工作的功底

局限性 / 可改进方向

  1. 传感器范围仍有限:仅覆盖Copernicus Sentinel系列,未纳入Landsat、MODIS等重要传感器,也未涵盖高光谱(如EnMAP)和商业卫星(WorldView等)
  2. 时间维度薄弱:预训练数据以~1年为时间跨度,模型不原生支持时间序列处理(每次只采样一张图像),无法捕捉长时间动态变化
  3. 跨模态融合缺失:训练时每种模态独立编码(共享权重但无显式交互),未利用同一网格内多模态之间的互补信息。虽然数据是对齐的,但模型并没有学习跨模态的关联
  4. 大气任务评估深度不够:S5P只有两个空气质量回归任务(NO2和O3),缺乏更多大气相关任务(如气溶胶光学厚度、甲烷检测等)的验证
  5. 模型规模:仅在ViT-Base上验证,未探索更大模型(ViT-Large/Huge)的扩展性
  6. 下游任务适配策略简单:仅使用线性探测和冻结编码器+UPerNet解码器,未探索更高效的微调策略(如LoRA、Adapter)

与相关工作的对比

  • vs DOFA:Copernicus-FM在DOFA的波长条件超网络基础上做了三个关键扩展——加入带宽编码、引入非光谱模态的变量超网络、加入元数据编码。消融实验(Tab.2)清晰展示了每个组件的贡献
  • vs CROMA/SkySense/DeCUR:这些方法使用独立编码器处理不同模态,限制了支持的模态数量(通常2-3个)。Copernicus-FM用单一统一编码器处理8种模态,更具扩展性
  • vs AnySat:AnySat也追求传感器灵活性,但发表时间相近。Copernicus-FM的优势在于更大更多样的预训练数据、元数据整合、以及从地表到大气的全覆盖
  • vs GEO-Bench/PANGAEA:作为评测基准的对比,Copernicus-Bench独特之处在于覆盖S3/S5P任务、分层任务设计、以及新构建的6个ML-ready数据集
  • vs SatCLIP:在气候预测实验中,Copernicus-FM的网格嵌入优于SatCLIP的专门位置编码,说明多源EO观测的语义信息比纯位置编码更有价值

启发与关联

  1. 元数据是被低估的金矿:论文最令人印象深刻的发现之一是元数据编码(尤其地理位置)带来的巨大提升。这启示我们:在遥感和其他地理空间任务中,不应将元数据仅作为辅助信息,而应将其作为与图像同等重要的第一等公民
  2. LLM作为跨域知识桥梁:用Llama编码变量名的思路非常新颖——LLM的通用知识可以将不同领域的概念映射到统一的语义空间。这个思路可扩展到其他需要统一处理异构数据的场景
  3. EO-气候基础模型融合:将EO嵌入作为ERA5的增强特征用于气候预测,可能催生新一代地球系统基础模型。特别是将语义丰富的EO嵌入作为static/dynamic变量融入天气预报模型(如Pangu-Weather、GraphCast)
  4. 与Prithvi、SpectralGPT等的互补:不同EO基础模型各有侧重,Copernicus-FM的多模态统一性和大气覆盖可以与其他模型互补

评分

  • 新颖性: ⭐⭐⭐⭐ 变量超网络(LLM编码)和元数据整合有新意,但整体框架是DOFA/MAE的自然延伸。跨模态联合预训练的idea不新,但做到全Sentinel覆盖的系统性工程是新的
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融极其全面(增量/减量消融、元数据各组件消融、变量编码方式对比、丢弃率消融),15个下游任务评测,气候预测探索实验,均有多次重复报告标准差。附录信息量巨大
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、逻辑连贯、图表精美专业。三个贡献的呼应关系贯穿全文,从motivation到solution到evaluation的叙事一气呵成
  • 价值: ⭐⭐⭐⭐⭐ 作为开源的数据集+模型+基准的组合包,对EO基础模型社区价值极大。Copernicus-Pretrain和Copernicus-Bench将成为领域标准。连接EO与气候的探索开辟了新的研究方向

主要结果: - 在15个任务中11个超越从头监督训练,尽管使用更少可训练参数和迭代步数 - 在S1/S2任务上与SoftCon、CROMA等模态专用模型性能相当或更优 - 在S3和S5P任务上大幅超越所有现有方法(这些传感器此前几乎没有预训练模型支持) - 气候预测实验:网格嵌入+坐标的组合在6个气候变量的10年均值/标准差预测上全面优于纯坐标基线

消融实验要点

逐步添加各组件的消融结果(ViT-Small,10K子集):

配置 EuroSAT-S1 EuroSAT-S2 EuroSAT-RGB LC100-S3 AQ-O3-S5P↓
基线(DOFA+动态patch) 56.3 87.6 62.2 86.7 2218.0
+带宽Fourier编码 56.5 88.9 65.4 87.1 1710.7
+变量超网络 57.5 88.9 65.8 86.6 1598.1
+元数据编码 77.9 88.9 78.5 90.7 839.3
+持续蒸馏 81.0 89.5 78.9 90.7 811.6

关键发现: - 元数据编码贡献最大,特别是非光学模态(S1的OA从57.5→77.9提升20多个点,S5P的RMSE从1598→839下降近一半) - 地理位置元数据是最重要的单一元数据成分 - 元数据丢弃率0.7效果最佳(比0.1/0.3更好,保证对缺失元数据的鲁棒性) - LLM变量编码优于随机哈希和光谱敏感度编码(提供灵活性+语义性的双重优势) - 减法消融验证:去除元数据后性能下降最剧烈(S1: 81.0→56.9),去除变量超网络次之

亮点

  • 三位一体的完整贡献:不只是提模型,而是数据集+模型+评测基准的完整生态,极大降低了后续研究的复用门槛
  • 动态超网络设计优雅:用一套统一机制处理光谱(波长+带宽生成核)和非光谱(LLM语义生成核)两类输入,避免了为每种传感器单独设计分支
  • 元数据的巨大价值:实验数据有力证明了地理位置、面积、时间等元数据对遥感模型的关键作用,特别是SAR和大气任务
  • EO-气候桥接:将EO表征压缩为0.25°全球嵌入图的思路很有前瞻性,为将卫星观测融入天气预报/气候模型打开了新方向
  • FlexiViT灵活patch尺寸在多分辨率EO场景中的成功应用是一个很好的工程启示

局限性 / 可改进方向

  1. 传感器范围有限:仅覆盖Copernicus Sentinel系列,缺少高分辨率商业卫星(WorldView、PlanetScope等)和Landsat等其他重要任务
  2. 时间范围窄:预训练数据集集中在2021年前后约1年时间,无法学习长期变化趋势和极端事件
  3. 缺少原生多模态融合:虽然能处理多种模态,但每种模态仍是独立编码再送入共享Transformer,没有原生的跨模态注意力或融合机制
  4. 缺少原生时序处理:模型可以处理时序图像栈,但没有设计专门的时序建模模块(如temporal attention)
  5. 下游评测均为冻结编码器:没有展示全参数微调的性能上限
  6. 气候预测实验偏简单(线性回归),尚未在真正的中期天气预报任务中验证

与相关工作的对比

方面 Copernicus-FM DOFA CROMA SkySense AnySat
传感器灵活性 任意光谱+非光谱 任意光谱 S1+S2 多模态但固定 任意分辨率
输入机制 超网络生成核 超网络生成核 双编码器 分离编码器 动态分辨率
非光谱支持 ✓(LLM编码)
元数据整合 ✓(位置+面积+时间) 部分 部分
大气任务
预训练规模 1870万(8模态) 较小 S1+S2 2150万 较小

与DOFA最密切相关——Copernicus-FM在DOFA的光谱超网络基础上扩展了带宽编码、变量超网络和元数据整合,同时将预训练数据从地表扩展到大气。

启发与关联

  • 动态超网络+LLM语义编码的范式可推广到其他需要处理异构输入的场景(如医学多模态、工业多传感器)
  • 元数据(特别是地理位置)的巨大收益提示我们:遥感模型不能只看像素,空间和时间上下文同样关键
  • 全球嵌入图概念可能催生一类新的地理空间表示学习研究——将EO视觉特征与气候/社会经济数据在网格级别对齐
  • ideas目录中暂无直接相关的遥感idea,但本文的动态超网络思想与模型压缩目录下的"Foundation Model压缩"方向有潜在交叉:如何高效压缩这种多模态基础模型

评分

  • 新颖性: ⭐⭐⭐⭐ 超网络基础源自DOFA,但变量超网络(LLM编码)和全Sentinel覆盖是新贡献;整体是系统性进步而非范式革新
  • 实验充分度: ⭐⭐⭐⭐⭐ 15个层级任务覆盖全传感器,消融实验详尽(逐步/减法/每种元数据/丢弃率/编码方式),33页附录
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表质量高,数据集/模型/基准三线并进但叙述不混乱
  • 价值: ⭐⭐⭐⭐⭐ 开源数据集+模型+基准+代码的完整生态,填补了S3/S5P预训练和评测的空白,对EO社区有长期影响

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 对我的价值: ⭐⭐⭐