The Platonic Universe: Do Foundation Models See the Same Sky?¶

会议: NeurIPS 2025 arXiv: 2509.19453 代码: 无（使用公开模型和Multimodal Universe数据集）领域: Physics / Foundation Models / Representation Learning 关键词: Platonic Representation Hypothesis, 基础模型, 天文学, 表征对齐, 跨模态收敛

一句话总结¶

在天文学场景下验证柏拉图表征假说（PRH）：使用JWST、HSC、Legacy Survey和DESI光谱数据，测量6种基础模型（ViT/ConvNeXt/DINOv2/IJEPA/AstroPT/Specformer）的表征对齐度，发现模态内和跨模态MKNN分数随模型规模一致增加（p=3.31×10⁻⁵），支持不同架构和模态向共享表征收敛的假说。

研究背景与动机¶

领域现状：天文学正经历"第四波"AI应用——基础模型的涌入。多个团队分别探索对比学习、生成式、自回归等不同路线构建天文基础模型，但缺乏共识哪种架构最优。
现有痛点：天文观测本质上是同一宇宙物理的不同投影（光学成像、红外成像、光谱），但每种模态的模型通常独立设计和训练，跨模态知识利用不足。
核心矛盾：天文社区是否需要从零训练专用基础模型，还是可以复用通用视觉模型已投入的巨额GPU计算？
本文要解决什么？ 在天文学场景下定量验证PRH——不同神经网络是否在足够数据和算力下收敛到一致的表征空间。
切入角度：天文学是PRH的理想测试场——不同观测模态是同一物理的数学投影，如果PRH成立，模型应该学到相似的表征。
核心idea一句话：即使在自然图像上预训练的通用视觉模型，其天文数据嵌入的跨模态对齐度也随模型规模显著增加，天文专用模型并无优势。

方法详解¶

整体框架¶

4种天文数据集（HSC/Legacy/JWST图像 + DESI光谱）× 6种模型架构 → 提取嵌入 → 模态内和跨模态MKNN对齐度测量 → 分析规模-对齐度关系。

关键设计¶

数据模态选择：
HSC：地面光学成像（z/r/g波段），作为参考基线
DESI Legacy Survey：不同地面光学巡天策略
JWST NIRCam：空间红外成像（F444W/F277W/F090W），最极端的成像测试
DESI光谱：1D光谱数据，与图像完全不同的模态
使用Multimodal Universe (MMU)进行跨模态匹配
模型架构覆盖：
监督分类：ViT (Base/Large/Huge), ConvNeXtv2 (Nano/Tiny/Base/Large)
自监督KD：DINOv2 (Small/Base/Large/Giant)
自监督预测：IJEPA
天文专用自回归：AstroPTv2 (Small/Base/Large)，在DESI Legacy Survey上预训练
天文光谱Transformer：Specformer，处理1D光谱
MKNN对齐度度量：
\(\text{MKNN}(\mathbf{z}_1, \mathbf{z}_2) = k^{-1} |N_k(\mathbf{z}_1) \cap N_k(\mathbf{z}_2)|\)
模态内测试：同模态、同架构不同规模的嵌入对齐度
跨模态测试：同架构同规模在不同模态上的嵌入对齐度
PRH预测：两者都应随模型规模增大而提升

实验关键数据¶

主实验 — 模态内对齐度（部分）¶

模型对	JWST	Legacy	HSC
AstroPTv2 S vs B	49.7%	8.1%	10.3%
AstroPTv2 B vs L	56.2%	10.0%	13.5%
DINOv2 L vs G	40.2%	10.2%	10.9%
ViT L vs H	32.6%	4.4%	5.0%

统计检验¶

对齐类型	增长比例	二项检验p值
模态内	14/18 (78%)	p = 1.54×10⁻²
跨模态	28/33 (85%)	p = 3.31×10⁻⁵

关键发现¶

跨模态对齐显著增长：28/33次跨模态比较中MKNN随模型规模增加，统计高度显著
通用模型≈天文专用模型：AstroPTv2（天文专用）的对齐度并不显著优于DINOv2或ViT（自然图像预训练）
最极端跨模态也有效：自然图像预训练模型在DESI光谱的Specformer嵌入上也显示出对齐增长趋势
JWST对齐度最高：与HSC配对时，JWST的MKNN分数系统性高于Legacy Survey

亮点与洞察¶

"拿来主义"的科学论据：天文社区不需要从零训练专用基础模型——复用ML社区已投入GPU-centuries的预训练模型再微调即可，大幅降低计算和碳排放成本
天文学作为PRH自然测试场：不同观测模态是同一物理的数学投影，比自然图像域的测试更有物理根基
实用建议明确："focus less on astronomy-specific architectures and more on scale and data diversity"

局限性 / 可改进方向¶

部分跨模态匹配数据量小（JWST vs HSC仅1.67K天体），可能不够代表性
MKNN仅是一种对齐度量，未使用CKA、互信息等补充指标
未测试LLM、扩散模型等更多架构类型
对齐度量非因果推断——高MKNN不能直接证明模型"理解了相同物理"

评分¶

新颖性: ⭐⭐⭐⭐ 首次在科学领域系统验证PRH，视角独特
实验充分度: ⭐⭐⭐ 6种架构×4种模态覆盖广，但数据量有限
写作质量: ⭐⭐⭐⭐⭐ 叙述优美，从柏拉图洞穴寓言到天文观测的类比精彩
价值: ⭐⭐⭐⭐ 对天文基础模型社区的策略方向有直接指导意义