Measuring the Intrinsic Dimension of Earth Representations¶

会议: ICLR 2026
arXiv: 2511.02101
代码: GitHub
领域: Remote Sensing / Representation Learning
关键词: 内在维度, 地理隐式神经表示, 地球观测, 表示学习, 无监督评估

一句话总结¶

首次系统度量地理隐式神经表示（Geographic INR）的内在维度（ID），发现256-512维嵌入的真实ID仅2-10维；冻结嵌入空间的高ID与好的下游性能正相关，而监督任务头激活空间的低ID与高性能正相关，揭示了「代表性 vs 任务对齐」的双重机制。

研究背景与动机¶

地理隐式神经表示（Geographic INR）将经纬度坐标 \((λ, ϕ)\) 映射为高维嵌入向量 \(z = f(λ, ϕ) \in \mathbb{R}^D\)（\(D\) 通常为256或512），通过在卫星图像、地面照片或文本上做对比学习预训练。SatCLIP、GeoCLIP、CSP等模型已被广泛用于土地覆盖分割、目标检测和图像地理定位等下游任务。

核心问题：这些高维表示中究竟包含了多少有效信息？现有评估完全依赖下游任务标签，缺乏架构无关、无需标签的信息量度量方式。

关键洞察：地球表面本身是二维球面 \(S^2\)，INR的输入流形维度已知为2。如果嵌入的内在维度（Intrinsic Dimension, ID）远高于2，说明模型确实编码了超越坐标本身的地理信号；如果ID接近环境维度 \(D\)，则可能存在冗余。这种"已知输入维度 + 可测量输出ID"的设定使得地理INR成为研究ID的理想对象。

方法详解¶

整体框架¶

方法分两条线路度量ID，对应论文核心的双重机制：

代表性度量（Representativeness）：冻结预训练INR，在全球陆地均匀采样10万个坐标，生成嵌入 \(Z_{geo} \in \mathbb{R}^{N \times D}\)，用角度估计器FisherS计算全局ID。FisherS对空间异质性鲁棒，不会被气候带边界等局部密度变化干扰。
任务对齐度量（Task-Alignment）：冻结INR嵌入，训练浅层MLP分类/回归头，用距离估计器TwoNN在倒数第二层ReLU激活上计算ID。这度量的是监督学习把嵌入压缩到多低维的任务流形上。

关键设计¶

角度 vs 距离估计器的互补使用：角度估计器（FisherS）通过白化+球面投影消除局部密度差异，适合全局比较不同模型；距离估计器（MLE/TwoNN/MOM/TLE）对局部邻域距离敏感，适合生成空间ID地图检测伪影。这一设计洞察是本文分析可靠性的基础。
局部ID空间可视化：用MLE估计器（\(k=100\)近邻）逐点计算ID并绘制全球地图，可直接看出GeoCLIP的ID在美国和西欧最高（反映社交媒体图像分布偏差），CSP呈现网格条纹（位置编码周期性重复），SatCLIP有细微振荡（球谐函数有限阶截断效应）。
分辨率-ID因果关系：系统控制位置编码的分辨率超参数（SatCLIP的Legendre多项式阶数 \(L\)、GeoCLIP的RFF最大频率 \(\sigma_{max}\) 和层级数 \(M\)、Space2Vec的频率分量数 \(S\)），观察ID如何随分辨率单调递增，建立因果而非相关关系。

实验关键数据¶

各模型全局内在维度¶

模型	类型	\(D\)	FisherS	MLE	MOM	TLE
SatCLIP-L10	位置编码器	256	5.00	1.96	2.02	2.16
SatCLIP-L40	位置编码器	256	8.08	2.03	2.39	2.32
GeoCLIP	位置编码器	512	7.68	11.21	13.02	11.53
CSP-fMoW	位置编码器	256	1.70	5.18	5.23	6.25
CSP-iNat	位置编码器	256	0.92	3.37	4.64	4.14
SINR	位置编码器	256	3.19	2.19	3.36	2.74
TaxaBind-Loc	位置编码器	512	3.33	9.44	11.56	10.30
CROMA	图像编码器	768	9.79	19.57	17.00	20.30
DOFA	图像编码器	768	3.32	15.58	13.78	16.20
ResNet152	图像编码器	2048	7.60	20.72	17.50	21.50

所有位置编码器的ID均比环境维度低1-2个数量级。GeoCLIP的距离估计ID（11-13）已接近大型图像编码器DOFA（14-16），说明仅靠经纬度输入也能编码丰富的地理信息。

输入模态对ID与性能的影响¶

预训练模态	全局FisherS ID	气温R²	高程R²	人口R²
Sentinel-2	~7.5	~0.76	~0.74	~0.78
S1 + S2	~8.5	~0.80	~0.82	~0.82
全部模态（All）	~9.5	~0.84	~0.86	~0.86

更多输入模态 → 更高ID → 更好下游性能，三者单调递增。

核心发现¶

嵌入空间ID与性能正相关：冻结INR嵌入的全局FisherS ID越高，下游回归/分类性能越好（气温、高程、人口、生物群落、国家分类5个任务均成立）。高ID意味着更强的代表性，浅层学习器可利用更多独立方向。
激活空间ID与性能负相关：监督MLP倒数第二层的TwoNN ID越低，性能越好。监督适配将INR特征压缩到了更低维的任务对齐流形上。这与Ansuini et al. (2019)在分类网络中的发现一致。
分辨率控制ID：SatCLIP的Legendre阶数从10增到40时，FisherS ID从5.0升至8.1；GeoCLIP增加RFF最大频率后ID从7.7飙升至75.7。
局部ID暴露数据偏差：GeoCLIP在美国/西欧ID最高（训练数据密集区），CSP呈网格伪影（位置编码周期性），可直接用于模型诊断。

亮点与洞察¶

代表性 vs 任务对齐的双重机制是本文最核心的贡献：同一个ID度量在嵌入空间和激活空间呈现相反的相关方向，优雅地统一了"预训练要宽"和"微调要窄"两个直觉
ID作为无标签度量的实用价值明确：可替代昂贵的下游评估做模型选择、超参数搜索和早停判断
局部ID地图是一个直观有效的模型诊断工具，可发现预训练数据覆盖偏差和架构引入的空间伪影
地理INR的ID（2-10）远低于环境维度（256-512），暗示当前模型表示严重冗余，存在压缩空间

分辨率对ID的影响¶

模型	分辨率参数	参数值	全局FisherS ID
SatCLIP	Legendre阶数 \(L\)	10	5.0
SatCLIP	Legendre阶数 \(L\)	20	~6.5
SatCLIP	Legendre阶数 \(L\)	40	8.1
GeoCLIP	RFF最大频率 \(\sigma_{max}\)	\(2^8\)	7.7
GeoCLIP	RFF最大频率 \(\sigma_{max}\)	\(2^{16}\)	75.7

SatCLIP的ID随球谐函数阶数近乎线性增长；GeoCLIP在提高RFF频率后ID急剧跃升近10倍，说明高频位置编码极大扩展了嵌入的有效自由度。

局限性¶

不同ID估计器给出差异显著的数值（如SatCLIP-L40的FisherS=8.08 vs MLE=2.03），需根据场景选择估计器
仅分析了2D坐标输入的静态INR，未涉及加入时间维度的时空表示
ID是单一标量，无法刻画嵌入空间的方向性结构或语义组织
代表性-任务对齐的相关性分析基于有限的7个位置编码器和5个下游任务，统计显著性依赖样本量
未探讨如何利用ID分析反向指导INR架构设计（如基于局部ID的自适应维度分配或区域加权微调）
表示学习评估：传统的评估依赖下游任务probe，本文提供了无标签的替代方案
启发：ID分析方法可以推广到其他领域的预训练表示评估（如NLP中的语言模型表示、医学影像表示等）

评分¶

新颖性: ⭐⭐⭐⭐ （视角新但技术工具已有）
实验充分度: ⭐⭐⭐⭐ （多模型多维度分析全面）
写作质量: ⭐⭐⭐⭐ （27页含详尽附录）
价值: ⭐⭐⭐⭐ （为地球观测表示学习提供了重要分析工具）