Measuring the Intrinsic Dimension of Earth Representations¶
会议: ICLR 2026
arXiv: 2511.02101
代码: GitHub
领域: Remote Sensing / Representation Learning
关键词: 内在维度, 地理隐式神经表示, 地球观测, 表示学习, 无监督评估
一句话总结¶
首次系统度量地理隐式神经表示(Geographic INR)的内在维度(ID),发现256-512维嵌入的真实ID仅2-10维;冻结嵌入空间的高ID与好的下游性能正相关,而监督任务头激活空间的低ID与高性能正相关,揭示了「代表性 vs 任务对齐」的双重机制。
研究背景与动机¶
地理隐式神经表示(Geographic INR)将经纬度坐标 \((λ, ϕ)\) 映射为高维嵌入向量 \(z = f(λ, ϕ) \in \mathbb{R}^D\)(\(D\) 通常为256或512),通过在卫星图像、地面照片或文本上做对比学习预训练。SatCLIP、GeoCLIP、CSP等模型已被广泛用于土地覆盖分割、目标检测和图像地理定位等下游任务。
核心问题:这些高维表示中究竟包含了多少有效信息?现有评估完全依赖下游任务标签,缺乏架构无关、无需标签的信息量度量方式。
关键洞察:地球表面本身是二维球面 \(S^2\),INR的输入流形维度已知为2。如果嵌入的内在维度(Intrinsic Dimension, ID)远高于2,说明模型确实编码了超越坐标本身的地理信号;如果ID接近环境维度 \(D\),则可能存在冗余。这种"已知输入维度 + 可测量输出ID"的设定使得地理INR成为研究ID的理想对象。
方法详解¶
整体框架¶
方法分两条线路度量ID,对应论文核心的双重机制:
-
代表性度量(Representativeness):冻结预训练INR,在全球陆地均匀采样10万个坐标,生成嵌入 \(Z_{geo} \in \mathbb{R}^{N \times D}\),用角度估计器FisherS计算全局ID。FisherS对空间异质性鲁棒,不会被气候带边界等局部密度变化干扰。
-
任务对齐度量(Task-Alignment):冻结INR嵌入,训练浅层MLP分类/回归头,用距离估计器TwoNN在倒数第二层ReLU激活上计算ID。这度量的是监督学习把嵌入压缩到多低维的任务流形上。
关键设计¶
-
角度 vs 距离估计器的互补使用:角度估计器(FisherS)通过白化+球面投影消除局部密度差异,适合全局比较不同模型;距离估计器(MLE/TwoNN/MOM/TLE)对局部邻域距离敏感,适合生成空间ID地图检测伪影。这一设计洞察是本文分析可靠性的基础。
-
局部ID空间可视化:用MLE估计器(\(k=100\)近邻)逐点计算ID并绘制全球地图,可直接看出GeoCLIP的ID在美国和西欧最高(反映社交媒体图像分布偏差),CSP呈现网格条纹(位置编码周期性重复),SatCLIP有细微振荡(球谐函数有限阶截断效应)。
-
分辨率-ID因果关系:系统控制位置编码的分辨率超参数(SatCLIP的Legendre多项式阶数 \(L\)、GeoCLIP的RFF最大频率 \(\sigma_{max}\) 和层级数 \(M\)、Space2Vec的频率分量数 \(S\)),观察ID如何随分辨率单调递增,建立因果而非相关关系。
实验关键数据¶
各模型全局内在维度¶
| 模型 | 类型 | \(D\) | FisherS | MLE | MOM | TLE |
|---|---|---|---|---|---|---|
| SatCLIP-L10 | 位置编码器 | 256 | 5.00 | 1.96 | 2.02 | 2.16 |
| SatCLIP-L40 | 位置编码器 | 256 | 8.08 | 2.03 | 2.39 | 2.32 |
| GeoCLIP | 位置编码器 | 512 | 7.68 | 11.21 | 13.02 | 11.53 |
| CSP-fMoW | 位置编码器 | 256 | 1.70 | 5.18 | 5.23 | 6.25 |
| CSP-iNat | 位置编码器 | 256 | 0.92 | 3.37 | 4.64 | 4.14 |
| SINR | 位置编码器 | 256 | 3.19 | 2.19 | 3.36 | 2.74 |
| TaxaBind-Loc | 位置编码器 | 512 | 3.33 | 9.44 | 11.56 | 10.30 |
| CROMA | 图像编码器 | 768 | 9.79 | 19.57 | 17.00 | 20.30 |
| DOFA | 图像编码器 | 768 | 3.32 | 15.58 | 13.78 | 16.20 |
| ResNet152 | 图像编码器 | 2048 | 7.60 | 20.72 | 17.50 | 21.50 |
所有位置编码器的ID均比环境维度低1-2个数量级。GeoCLIP的距离估计ID(11-13)已接近大型图像编码器DOFA(14-16),说明仅靠经纬度输入也能编码丰富的地理信息。
输入模态对ID与性能的影响¶
| 预训练模态 | 全局FisherS ID | 气温R² | 高程R² | 人口R² |
|---|---|---|---|---|
| Sentinel-2 | ~7.5 | ~0.76 | ~0.74 | ~0.78 |
| S1 + S2 | ~8.5 | ~0.80 | ~0.82 | ~0.82 |
| 全部模态(All) | ~9.5 | ~0.84 | ~0.86 | ~0.86 |
更多输入模态 → 更高ID → 更好下游性能,三者单调递增。
核心发现¶
- 嵌入空间ID与性能正相关:冻结INR嵌入的全局FisherS ID越高,下游回归/分类性能越好(气温、高程、人口、生物群落、国家分类5个任务均成立)。高ID意味着更强的代表性,浅层学习器可利用更多独立方向。
- 激活空间ID与性能负相关:监督MLP倒数第二层的TwoNN ID越低,性能越好。监督适配将INR特征压缩到了更低维的任务对齐流形上。这与Ansuini et al. (2019)在分类网络中的发现一致。
- 分辨率控制ID:SatCLIP的Legendre阶数从10增到40时,FisherS ID从5.0升至8.1;GeoCLIP增加RFF最大频率后ID从7.7飙升至75.7。
- 局部ID暴露数据偏差:GeoCLIP在美国/西欧ID最高(训练数据密集区),CSP呈网格伪影(位置编码周期性),可直接用于模型诊断。
亮点与洞察¶
- 代表性 vs 任务对齐的双重机制是本文最核心的贡献:同一个ID度量在嵌入空间和激活空间呈现相反的相关方向,优雅地统一了"预训练要宽"和"微调要窄"两个直觉
- ID作为无标签度量的实用价值明确:可替代昂贵的下游评估做模型选择、超参数搜索和早停判断
- 局部ID地图是一个直观有效的模型诊断工具,可发现预训练数据覆盖偏差和架构引入的空间伪影
- 地理INR的ID(2-10)远低于环境维度(256-512),暗示当前模型表示严重冗余,存在压缩空间
分辨率对ID的影响¶
| 模型 | 分辨率参数 | 参数值 | 全局FisherS ID |
|---|---|---|---|
| SatCLIP | Legendre阶数 \(L\) | 10 | 5.0 |
| SatCLIP | Legendre阶数 \(L\) | 20 | ~6.5 |
| SatCLIP | Legendre阶数 \(L\) | 40 | 8.1 |
| GeoCLIP | RFF最大频率 \(\sigma_{max}\) | \(2^8\) | 7.7 |
| GeoCLIP | RFF最大频率 \(\sigma_{max}\) | \(2^{16}\) | 75.7 |
SatCLIP的ID随球谐函数阶数近乎线性增长;GeoCLIP在提高RFF频率后ID急剧跃升近10倍,说明高频位置编码极大扩展了嵌入的有效自由度。
局限性¶
- 不同ID估计器给出差异显著的数值(如SatCLIP-L40的FisherS=8.08 vs MLE=2.03),需根据场景选择估计器
- 仅分析了2D坐标输入的静态INR,未涉及加入时间维度的时空表示
- ID是单一标量,无法刻画嵌入空间的方向性结构或语义组织
- 代表性-任务对齐的相关性分析基于有限的7个位置编码器和5个下游任务,统计显著性依赖样本量
- 未探讨如何利用ID分析反向指导INR架构设计(如基于局部ID的自适应维度分配或区域加权微调)
- 表示学习评估:传统的评估依赖下游任务probe,本文提供了无标签的替代方案
- 启发:ID分析方法可以推广到其他领域的预训练表示评估(如NLP中的语言模型表示、医学影像表示等)
评分¶
- 新颖性: ⭐⭐⭐⭐ (视角新但技术工具已有)
- 实验充分度: ⭐⭐⭐⭐ (多模型多维度分析全面)
- 写作质量: ⭐⭐⭐⭐ (27页含详尽附录)
- 价值: ⭐⭐⭐⭐ (为地球观测表示学习提供了重要分析工具)
相关论文¶
- [ICLR 2026] Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
- [ECCV 2024] Learning Representations of Satellite Images From Metadata Supervision
- [ICCV 2025] WildSAT: Learning Satellite Image Representations from Wildlife Observations
- [CVPR 2025] EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
- [ICCV 2025] Towards a Unified Copernicus Foundation Model for Earth Vision