跳转至

Measuring the Intrinsic Dimension of Earth Representations

会议: ICLR 2026
arXiv: 2511.02101
代码: GitHub
领域: Remote Sensing / Representation Learning
关键词: 内在维度, 地理隐式神经表示, 地球观测, 表示学习, 无监督评估

一句话总结

首次系统度量地理隐式神经表示(Geographic INR)的内在维度(ID),发现256-512维嵌入的真实ID仅2-10维;冻结嵌入空间的高ID与好的下游性能正相关,而监督任务头激活空间的低ID与高性能正相关,揭示了「代表性 vs 任务对齐」的双重机制。

研究背景与动机

地理隐式神经表示(Geographic INR)将经纬度坐标 \((λ, ϕ)\) 映射为高维嵌入向量 \(z = f(λ, ϕ) \in \mathbb{R}^D\)\(D\) 通常为256或512),通过在卫星图像、地面照片或文本上做对比学习预训练。SatCLIP、GeoCLIP、CSP等模型已被广泛用于土地覆盖分割、目标检测和图像地理定位等下游任务。

核心问题:这些高维表示中究竟包含了多少有效信息?现有评估完全依赖下游任务标签,缺乏架构无关、无需标签的信息量度量方式。

关键洞察:地球表面本身是二维球面 \(S^2\),INR的输入流形维度已知为2。如果嵌入的内在维度(Intrinsic Dimension, ID)远高于2,说明模型确实编码了超越坐标本身的地理信号;如果ID接近环境维度 \(D\),则可能存在冗余。这种"已知输入维度 + 可测量输出ID"的设定使得地理INR成为研究ID的理想对象。

方法详解

整体框架

方法分两条线路度量ID,对应论文核心的双重机制:

  1. 代表性度量(Representativeness):冻结预训练INR,在全球陆地均匀采样10万个坐标,生成嵌入 \(Z_{geo} \in \mathbb{R}^{N \times D}\),用角度估计器FisherS计算全局ID。FisherS对空间异质性鲁棒,不会被气候带边界等局部密度变化干扰。

  2. 任务对齐度量(Task-Alignment):冻结INR嵌入,训练浅层MLP分类/回归头,用距离估计器TwoNN在倒数第二层ReLU激活上计算ID。这度量的是监督学习把嵌入压缩到多低维的任务流形上。

关键设计

  1. 角度 vs 距离估计器的互补使用:角度估计器(FisherS)通过白化+球面投影消除局部密度差异,适合全局比较不同模型;距离估计器(MLE/TwoNN/MOM/TLE)对局部邻域距离敏感,适合生成空间ID地图检测伪影。这一设计洞察是本文分析可靠性的基础。

  2. 局部ID空间可视化:用MLE估计器(\(k=100\)近邻)逐点计算ID并绘制全球地图,可直接看出GeoCLIP的ID在美国和西欧最高(反映社交媒体图像分布偏差),CSP呈现网格条纹(位置编码周期性重复),SatCLIP有细微振荡(球谐函数有限阶截断效应)。

  3. 分辨率-ID因果关系:系统控制位置编码的分辨率超参数(SatCLIP的Legendre多项式阶数 \(L\)、GeoCLIP的RFF最大频率 \(\sigma_{max}\) 和层级数 \(M\)、Space2Vec的频率分量数 \(S\)),观察ID如何随分辨率单调递增,建立因果而非相关关系。

实验关键数据

各模型全局内在维度

模型 类型 \(D\) FisherS MLE MOM TLE
SatCLIP-L10 位置编码器 256 5.00 1.96 2.02 2.16
SatCLIP-L40 位置编码器 256 8.08 2.03 2.39 2.32
GeoCLIP 位置编码器 512 7.68 11.21 13.02 11.53
CSP-fMoW 位置编码器 256 1.70 5.18 5.23 6.25
CSP-iNat 位置编码器 256 0.92 3.37 4.64 4.14
SINR 位置编码器 256 3.19 2.19 3.36 2.74
TaxaBind-Loc 位置编码器 512 3.33 9.44 11.56 10.30
CROMA 图像编码器 768 9.79 19.57 17.00 20.30
DOFA 图像编码器 768 3.32 15.58 13.78 16.20
ResNet152 图像编码器 2048 7.60 20.72 17.50 21.50

所有位置编码器的ID均比环境维度低1-2个数量级。GeoCLIP的距离估计ID(11-13)已接近大型图像编码器DOFA(14-16),说明仅靠经纬度输入也能编码丰富的地理信息。

输入模态对ID与性能的影响

预训练模态 全局FisherS ID 气温R² 高程R² 人口R²
Sentinel-2 ~7.5 ~0.76 ~0.74 ~0.78
S1 + S2 ~8.5 ~0.80 ~0.82 ~0.82
全部模态(All) ~9.5 ~0.84 ~0.86 ~0.86

更多输入模态 → 更高ID → 更好下游性能,三者单调递增。

核心发现

  • 嵌入空间ID与性能正相关:冻结INR嵌入的全局FisherS ID越高,下游回归/分类性能越好(气温、高程、人口、生物群落、国家分类5个任务均成立)。高ID意味着更强的代表性,浅层学习器可利用更多独立方向。
  • 激活空间ID与性能负相关:监督MLP倒数第二层的TwoNN ID越低,性能越好。监督适配将INR特征压缩到了更低维的任务对齐流形上。这与Ansuini et al. (2019)在分类网络中的发现一致。
  • 分辨率控制ID:SatCLIP的Legendre阶数从10增到40时,FisherS ID从5.0升至8.1;GeoCLIP增加RFF最大频率后ID从7.7飙升至75.7。
  • 局部ID暴露数据偏差:GeoCLIP在美国/西欧ID最高(训练数据密集区),CSP呈网格伪影(位置编码周期性),可直接用于模型诊断。

亮点与洞察

  • 代表性 vs 任务对齐的双重机制是本文最核心的贡献:同一个ID度量在嵌入空间和激活空间呈现相反的相关方向,优雅地统一了"预训练要宽"和"微调要窄"两个直觉
  • ID作为无标签度量的实用价值明确:可替代昂贵的下游评估做模型选择、超参数搜索和早停判断
  • 局部ID地图是一个直观有效的模型诊断工具,可发现预训练数据覆盖偏差和架构引入的空间伪影
  • 地理INR的ID(2-10)远低于环境维度(256-512),暗示当前模型表示严重冗余,存在压缩空间

分辨率对ID的影响

模型 分辨率参数 参数值 全局FisherS ID
SatCLIP Legendre阶数 \(L\) 10 5.0
SatCLIP Legendre阶数 \(L\) 20 ~6.5
SatCLIP Legendre阶数 \(L\) 40 8.1
GeoCLIP RFF最大频率 \(\sigma_{max}\) \(2^8\) 7.7
GeoCLIP RFF最大频率 \(\sigma_{max}\) \(2^{16}\) 75.7

SatCLIP的ID随球谐函数阶数近乎线性增长;GeoCLIP在提高RFF频率后ID急剧跃升近10倍,说明高频位置编码极大扩展了嵌入的有效自由度。

局限性

  • 不同ID估计器给出差异显著的数值(如SatCLIP-L40的FisherS=8.08 vs MLE=2.03),需根据场景选择估计器
  • 仅分析了2D坐标输入的静态INR,未涉及加入时间维度的时空表示
  • ID是单一标量,无法刻画嵌入空间的方向性结构或语义组织
  • 代表性-任务对齐的相关性分析基于有限的7个位置编码器和5个下游任务,统计显著性依赖样本量
  • 未探讨如何利用ID分析反向指导INR架构设计(如基于局部ID的自适应维度分配或区域加权微调)
  • 表示学习评估:传统的评估依赖下游任务probe,本文提供了无标签的替代方案
  • 启发:ID分析方法可以推广到其他领域的预训练表示评估(如NLP中的语言模型表示、医学影像表示等)

评分

  • 新颖性: ⭐⭐⭐⭐ (视角新但技术工具已有)
  • 实验充分度: ⭐⭐⭐⭐ (多模型多维度分析全面)
  • 写作质量: ⭐⭐⭐⭐ (27页含详尽附录)
  • 价值: ⭐⭐⭐⭐ (为地球观测表示学习提供了重要分析工具)

相关论文