Towards a Unified Copernicus Foundation Model for Earth Vision¶

会议: ICCV 2025
arXiv: 2503.11849
代码: https://github.com/zhu-xlab/Copernicus-FM (有)
领域: 遥感 / 地球观测基础模型
关键词: 地球观测基础模型, 动态超网络, 多传感器融合, 元数据编码, Copernicus Sentinel

一句话总结¶

提出由Copernicus-Pretrain（1870万张覆盖全部Sentinel任务的对齐图像）、Copernicus-FM（通过扩展动态超网络和Fourier元数据编码处理任意光谱/非光谱传感器的统一基础模型）、Copernicus-Bench（15个分层下游任务基准）三位一体的完整EO基础模型体系，首次实现从地表到大气的跨模态联合预训练，在15个下游任务中11个以冻结编码器超越全参数监督训练。

背景与动机¶

地球观测（EO）基础模型近年发展迅速，但面临三重瓶颈： 1. 传感器多样性不足：现有预训练数据集（如SSL4EO-S12、SatlasPretrain、MMEarth）集中在Sentinel-1/2和Landsat等中高分辨率地表传感器，完全忽略了Sentinel-3（300m分辨率、21个OLCI波段、高时间频率、全球覆盖）和Sentinel-5P（1km分辨率、大气成分变量NO2/CO/SO2/O3），而后者对气候研究至关重要 2. 模型架构刚性：主流EO基础模型要么用独立编码器处理不同模态（如DeCUR、CROMA、SkySense），要么用联合编码器但绑定固定数量模态（如USat）。即便DOFA引入了波长条件的动态patch embedding，也无法处理没有光谱响应的非光谱变量（大气成分、高程），且忽略了元数据信息 3. 评测基准片面：现有基准（GEO-Bench 12个任务、PANGAEA、FoMo-Bench）以地表光学/SAR任务为主，缺乏S3/S5P相关的粗尺度和大气任务评估，无法衡量模型在完整EO任务链上的表现

这三个瓶颈共同阻碍了将EO与天气/气候预测系统真正连接的统一基础模型的发展。

核心问题¶

如何突破传感器类型（SAR/多光谱/大气/高程）、空间分辨率（10m–1km）、模态属性（光谱vs非光谱）的壁垒，构建一个能处理任意光谱或非光谱传感器输入、灵活整合地理/空间/时间元数据的统一EO基础模型？同时，如何建立覆盖全Sentinel系列、从预处理到专业应用的分层评测体系？

方法详解¶

整体框架¶

工作由三个协同组件构成，形成"数据-模型-评测"闭环： - Copernicus-Pretrain：整合Sentinel-1（SAR，10m）、Sentinel-2（多光谱，10m）、Sentinel-3 OLCI（多光谱辐亮度，300m）、Sentinel-5P（大气变量NO2/CO/SO2/O3，1km）、Copernicus DEM（高程，30m）共8种模态的1870万张图像，按ERA5再分析数据集的0.25°×0.25°网格组织为约31万个网格单元（其中22万个具有全模态对齐） - Copernicus-FM：基于ViT-Base的统一模型，核心创新是扩展的动态超网络（光谱超网络+变量超网络）进行传感器自适应的patch embedding，加上统一Fourier编码的元数据集成，以MAE掩码重建+持续蒸馏为训练目标 - Copernicus-Bench：15个下游任务，分为L1预处理（2个云检测）、L2基础应用（8个土地覆盖分类/分割）、L3专业应用（5个含洪水检测、生物量回归、空气质量回归），覆盖S1/S2/S3/S5P所有Sentinel模态，其中6个为新构建数据集

关键设计¶

光谱感知超网络（Spectral Hypernetwork）：
输入：每个光谱通道的中心波长λ和带宽δ（如S2有13个波段，每个波段有对应的λ和δ值）
编码：首先通过Fourier编码 FE(x) = [cos(2πx/ωᵢ), sin(2πx/ωᵢ)] 将波长和带宽分别映射为D维向量V_λ和V_δ，然后相加得到光谱编码V_spec ∈ ℝ^{C×D}
权重生成：V_spec经MLP + 多头注意力层变换为权重向量M_w ∈ ℝ^{C×p²D}和偏置向量M_b ∈ ℝ^{C×D}，重塑为卷积核K_conv ∈ ℝ^{D×C×p×p}
动态patch尺寸（关键改进）：借鉴FlexiViT的思想，动态重塑卷积核权重以适配不同模态的patch尺寸：S1/2用16×16、S3用8×8、S5P用4×4、DEM用64×64。这解决了原始DOFA要求固定patch尺寸导致的、在10m到1km分辨率跨度下计算量爆炸的问题
变量超网络（Variable Hypernetwork）：
动机：对于没有光谱响应函数的非光谱模态（S5P的NO2/CO/SO2/O3大气变量、DEM高程），光谱超网络无法处理
方案：使用冻结的Llama 3.2-1B LLM编码器将变量名（如"tropospheric NO2 column number density"）编码为D维语义向量
优势：①一次性离线推理，零额外训练开销 ②天然保持变量间的语义关系（t-SNE可视化显示S5P变量自然聚类、EO模态与游戏/山脉等无关概念远离） ③理论上可扩展到任意新变量名
消融对比（Tab.10）：LLM编码 > 光谱学引导 > 随机哈希，且LLM编码在所有任务上最稳定
统一Fourier元数据编码：
三类元数据：地理位置（经纬度→拼接为D维向量Loc）、空间覆盖面积（由GSD×patch尺寸计算km²→Area）、时间（距1970-01-01的天数→Time）
数据增强时元数据自适应更新：随机裁剪后地理位置和面积随之动态调整
元数据丢弃策略：训练时以0.7概率随机丢弃各类元数据，使用可学习token替代缺失的元数据编码。消融实验（Tab.11）显示0.7丢弃率最优，过低（0.1/0.3）或过高（0.9）都不佳
各元数据贡献（Tab.12）：地理位置提升最大（+18.9~21.3% OA on EuroSAT-S1），面积次之（+2.2%），时间再次（+0.7%）。经纬度格式优于笛卡尔坐标(x,y,z)，真实裁剪后面积优于原始面积

损失函数 / 训练策略¶

MAE风格掩码重建：对每种模态的patch token以70%比例随机遮挡，经编码器（仅可见patch）和轻量Transformer解码器（512维，8层，16头）重建被遮挡patch。解码端使用与编码端对称的动态patch预测器（全连接层代替卷积层，因为是在展平的patch token上操作）
持续蒸馏（Continual Distillation）：
从冻结的DINOv2 ViT-B/14蒸馏S2衍生的RGB表示（cosine similarity loss，权重0.1）：锚定通用视觉知识，使得模型即使只在中低分辨率Sentinel图像上预训练，也能迁移到高分辨率/RGB数据
从冻结的SoftCon ViT-B/14蒸馏S1/S2全通道表示（权重0.2）：加速收敛、提供全局表示引导。作者发现该蒸馏的收益随训练更长/模型更大而递减
训练配置：ViT-Base（768维，12层，12头），220K全模态网格子集，100 epochs，有效批大小288，基础学习率1.5e-4（线性缩放），10 epoch warmup + cosine衰减，AdamW（weight decay 0.05），总计512 A100 GPU小时（128节点小时×4 A100-40GB）

实验关键数据¶

主实验（Copernicus-Bench，Tab.4，冻结编码器 vs 监督全参数训练）¶

数据集	任务	指标	Copernicus-FM	监督ViT-S	监督ViT-B	DOFA	SoftCon	CROMA
Cloud-S2	语义分割	mIoU	66.7	64.2	59.4	65.0	66.9	65.0
Cloud-S3	语义分割	mIoU	59.1	—	—	—	—	—
EuroSAT-S1	分类	OA	81.0	—	—	—	—	—
EuroSAT-S2	分类	OA	89.5	—	—	—	—	—
LC100Cls-S3	多标签分类	mAP	90.7	—	—	—	—	—
AQ-O3-S5P	回归	RMSE↓	811.6	—	—	—	—	—

核心发现：Copernicus-FM在15个任务中11个以冻结编码器（更少可训练参数、更少迭代）超越了从头训练的监督基线。在S3和S5P任务上大幅领先（因为其他模型根本不支持这些模态），在S1/S2任务上与单模态/双模态SOTA基本持平或略优。

消融实验要点（Tab.2，ViT-Small在10K子集上）¶

配置	EuroSAT-S1(OA)	EuroSAT-S2(OA)	EuroSAT-RGB(OA)	LC100-S3(mAP)	AQ-O3(RMSE↓)
DOFA基线+动态patch	56.3	87.6	62.2	86.7	2218.0
+带宽Fourier编码	56.5	88.9	65.4	87.1	1710.7
+变量超网络	57.5	88.9	65.8	86.6	1598.1
+元数据编码	77.9	88.9	78.5	90.7	839.3
+持续蒸馏	81.0	89.5	78.9	90.7	811.6

元数据编码带来的提升最为显著，尤其在非光学模态上（EuroSAT-S1从57.5→77.9，提升20.4个点；AQ-O3从1598→839，RMSE降低近一半）。这说明地理位置等元数据对遥感任务的重要性被严重低估。

气候预测实验（Tab.5）¶

利用Copernicus-FM编码的网格嵌入进行ERA5气候参数回归预测（10年均值/标准差），网格嵌入+坐标组合取得最佳结果，甚至优于专门的位置编码器SatCLIP。证明了EO基础模型在连接遥感与气候研究方面的潜力。

亮点¶

系统性贡献：数据-模型-评测-应用四位一体，而非单点突破。Copernicus-Pretrain是迄今最大最多样的EO预训练数据集（8种模态，1870万图像），Copernicus-Bench是首个覆盖全Sentinel系列的分层基准
变量超网络的创新性：利用LLM编码器将变量名的语义知识引入遥感领域，优雅地解决了非光谱模态的统一建模问题，且零额外训练开销。t-SNE可视化证实LLM确实具有跨领域的变量语义理解能力
元数据整合的巨大潜力：消融实验极其清晰地展示了元数据（尤其是地理位置）对遥感任务的关键作用——某些任务上仅加入元数据就能带来20+%的性能提升，这对整个遥感社区都有启发意义
EO-气候桥接的前沿探索：将EO基础模型的网格嵌入作为气候模型的高级地理表示，开辟了将EO嵌入集成到天气预报/气候预测系统中的新方向。全球0.25°嵌入数据集（Copernicus-Embed-025deg）具有极高的压缩比和实用价值
工程细节扎实：数据收集的高斯采样+极地采样+间隙填充策略、数据增强时元数据的动态自适应、S3/S5P新数据集的精心构建（含云检测过滤），体现了大规模系统工作的功底

局限性 / 可改进方向¶

传感器范围仍有限：仅覆盖Copernicus Sentinel系列，未纳入Landsat、MODIS等重要传感器，也未涵盖高光谱（如EnMAP）和商业卫星（WorldView等）
时间维度薄弱：预训练数据以~1年为时间跨度，模型不原生支持时间序列处理（每次只采样一张图像），无法捕捉长时间动态变化
跨模态融合缺失：训练时每种模态独立编码（共享权重但无显式交互），未利用同一网格内多模态之间的互补信息。虽然数据是对齐的，但模型并没有学习跨模态的关联
大气任务评估深度不够：S5P只有两个空气质量回归任务（NO2和O3），缺乏更多大气相关任务（如气溶胶光学厚度、甲烷检测等）的验证
模型规模：仅在ViT-Base上验证，未探索更大模型（ViT-Large/Huge）的扩展性
下游任务适配策略简单：仅使用线性探测和冻结编码器+UPerNet解码器，未探索更高效的微调策略（如LoRA、Adapter）

与相关工作的对比¶

vs DOFA：Copernicus-FM在DOFA的波长条件超网络基础上做了三个关键扩展——加入带宽编码、引入非光谱模态的变量超网络、加入元数据编码。消融实验（Tab.2）清晰展示了每个组件的贡献
vs CROMA/SkySense/DeCUR：这些方法使用独立编码器处理不同模态，限制了支持的模态数量（通常2-3个）。Copernicus-FM用单一统一编码器处理8种模态，更具扩展性
vs AnySat：AnySat也追求传感器灵活性，但发表时间相近。Copernicus-FM的优势在于更大更多样的预训练数据、元数据整合、以及从地表到大气的全覆盖
vs GEO-Bench/PANGAEA：作为评测基准的对比，Copernicus-Bench独特之处在于覆盖S3/S5P任务、分层任务设计、以及新构建的6个ML-ready数据集
vs SatCLIP：在气候预测实验中，Copernicus-FM的网格嵌入优于SatCLIP的专门位置编码，说明多源EO观测的语义信息比纯位置编码更有价值

启发与关联¶

元数据是被低估的金矿：论文最令人印象深刻的发现之一是元数据编码（尤其地理位置）带来的巨大提升。这启示我们：在遥感和其他地理空间任务中，不应将元数据仅作为辅助信息，而应将其作为与图像同等重要的第一等公民
LLM作为跨域知识桥梁：用Llama编码变量名的思路非常新颖——LLM的通用知识可以将不同领域的概念映射到统一的语义空间。这个思路可扩展到其他需要统一处理异构数据的场景
EO-气候基础模型融合：将EO嵌入作为ERA5的增强特征用于气候预测，可能催生新一代地球系统基础模型。特别是将语义丰富的EO嵌入作为static/dynamic变量融入天气预报模型（如Pangu-Weather、GraphCast）
与Prithvi、SpectralGPT等的互补：不同EO基础模型各有侧重，Copernicus-FM的多模态统一性和大气覆盖可以与其他模型互补

评分¶

新颖性: ⭐⭐⭐⭐ 变量超网络(LLM编码)和元数据整合有新意，但整体框架是DOFA/MAE的自然延伸。跨模态联合预训练的idea不新，但做到全Sentinel覆盖的系统性工程是新的
实验充分度: ⭐⭐⭐⭐⭐ 消融极其全面（增量/减量消融、元数据各组件消融、变量编码方式对比、丢弃率消融），15个下游任务评测，气候预测探索实验，均有多次重复报告标准差。附录信息量巨大
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、逻辑连贯、图表精美专业。三个贡献的呼应关系贯穿全文，从motivation到solution到evaluation的叙事一气呵成
价值: ⭐⭐⭐⭐⭐ 作为开源的数据集+模型+基准的组合包，对EO基础模型社区价值极大。Copernicus-Pretrain和Copernicus-Bench将成为领域标准。连接EO与气候的探索开辟了新的研究方向

主要结果： - 在15个任务中11个超越从头监督训练，尽管使用更少可训练参数和迭代步数 - 在S1/S2任务上与SoftCon、CROMA等模态专用模型性能相当或更优 - 在S3和S5P任务上大幅超越所有现有方法（这些传感器此前几乎没有预训练模型支持） - 气候预测实验：网格嵌入+坐标的组合在6个气候变量的10年均值/标准差预测上全面优于纯坐标基线

消融实验要点¶

逐步添加各组件的消融结果（ViT-Small，10K子集）：

配置	EuroSAT-S1	EuroSAT-S2	EuroSAT-RGB	LC100-S3	AQ-O3-S5P↓
基线(DOFA+动态patch)	56.3	87.6	62.2	86.7	2218.0
+带宽Fourier编码	56.5	88.9	65.4	87.1	1710.7
+变量超网络	57.5	88.9	65.8	86.6	1598.1
+元数据编码	77.9	88.9	78.5	90.7	839.3
+持续蒸馏	81.0	89.5	78.9	90.7	811.6

关键发现： - 元数据编码贡献最大，特别是非光学模态（S1的OA从57.5→77.9提升20多个点，S5P的RMSE从1598→839下降近一半） - 地理位置元数据是最重要的单一元数据成分 - 元数据丢弃率0.7效果最佳（比0.1/0.3更好，保证对缺失元数据的鲁棒性） - LLM变量编码优于随机哈希和光谱敏感度编码（提供灵活性+语义性的双重优势） - 减法消融验证：去除元数据后性能下降最剧烈（S1: 81.0→56.9），去除变量超网络次之

亮点¶

三位一体的完整贡献：不只是提模型，而是数据集+模型+评测基准的完整生态，极大降低了后续研究的复用门槛
动态超网络设计优雅：用一套统一机制处理光谱（波长+带宽生成核）和非光谱（LLM语义生成核）两类输入，避免了为每种传感器单独设计分支
元数据的巨大价值：实验数据有力证明了地理位置、面积、时间等元数据对遥感模型的关键作用，特别是SAR和大气任务
EO-气候桥接：将EO表征压缩为0.25°全球嵌入图的思路很有前瞻性，为将卫星观测融入天气预报/气候模型打开了新方向
FlexiViT灵活patch尺寸在多分辨率EO场景中的成功应用是一个很好的工程启示

局限性 / 可改进方向¶

传感器范围有限：仅覆盖Copernicus Sentinel系列，缺少高分辨率商业卫星（WorldView、PlanetScope等）和Landsat等其他重要任务
时间范围窄：预训练数据集集中在2021年前后约1年时间，无法学习长期变化趋势和极端事件
缺少原生多模态融合：虽然能处理多种模态，但每种模态仍是独立编码再送入共享Transformer，没有原生的跨模态注意力或融合机制
缺少原生时序处理：模型可以处理时序图像栈，但没有设计专门的时序建模模块（如temporal attention）
下游评测均为冻结编码器：没有展示全参数微调的性能上限
气候预测实验偏简单（线性回归），尚未在真正的中期天气预报任务中验证

与相关工作的对比¶

方面	Copernicus-FM	DOFA	CROMA	SkySense	AnySat
传感器灵活性	任意光谱+非光谱	任意光谱	S1+S2	多模态但固定	任意分辨率
输入机制	超网络生成核	超网络生成核	双编码器	分离编码器	动态分辨率
非光谱支持	✓(LLM编码)	✗	✗	✗	✗
元数据整合	✓(位置+面积+时间)	✗	✗	部分	部分
大气任务	✓	✗	✗	✗	✗
预训练规模	1870万(8模态)	较小	S1+S2	2150万	较小

与DOFA最密切相关——Copernicus-FM在DOFA的光谱超网络基础上扩展了带宽编码、变量超网络和元数据整合，同时将预训练数据从地表扩展到大气。

启发与关联¶

动态超网络+LLM语义编码的范式可推广到其他需要处理异构输入的场景（如医学多模态、工业多传感器）
元数据（特别是地理位置）的巨大收益提示我们：遥感模型不能只看像素，空间和时间上下文同样关键
全球嵌入图概念可能催生一类新的地理空间表示学习研究——将EO视觉特征与气候/社会经济数据在网格级别对齐
ideas目录中暂无直接相关的遥感idea，但本文的动态超网络思想与模型压缩目录下的"Foundation Model压缩"方向有潜在交叉：如何高效压缩这种多模态基础模型

评分¶

新颖性: ⭐⭐⭐⭐ 超网络基础源自DOFA，但变量超网络(LLM编码)和全Sentinel覆盖是新贡献；整体是系统性进步而非范式革新
实验充分度: ⭐⭐⭐⭐⭐ 15个层级任务覆盖全传感器，消融实验详尽（逐步/减法/每种元数据/丢弃率/编码方式），33页附录
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图表质量高，数据集/模型/基准三线并进但叙述不混乱
价值: ⭐⭐⭐⭐⭐ 开源数据集+模型+基准+代码的完整生态，填补了S3/S5P预训练和评测的空白，对EO社区有长期影响

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
对我的价值: ⭐⭐⭐