Universal Spectral Tokenization via Self-Supervised Panchromatic Representation Learning¶

会议: NeurIPS 2025
arXiv: 2510.17959
代码: 无
领域: 天文光谱学, 基础模型, 自监督学习
关键词: 光谱 Tokenizer, 异构数据统一, Vision Transformer, 自监督预训练, 天文学

一句话总结¶

提出首个通用光谱 Tokenizer，通过连续波长嵌入和自监督重建目标，在原始波长网格上联合训练异构天文光谱数据（SDSS/DESI/GALAH/APOGEE），生成对齐、均匀且物理有意义的表征。

研究背景与动机¶

核心矛盾¶

核心矛盾：大型天文巡天（SDSS、DESI 等）已采集数百万条光谱，但覆盖不同波长范围和分辨率

领域现状¶

领域现状：现有分析流程碎片化：每个巡天需要独立的预处理和特定任务模型，无法跨巡天共享知识

现有痛点¶

现有痛点：固定网格方法统一多分辨率数据会导致插值伪影，且在宽波长范围内计算不可行（需 ~300K 像素）

解决思路¶

解决思路：科学基础模型的核心挑战：如何从不规则、多分辨率序列数据中学习通用表征

方法详解¶

整体框架¶

基于 Vision Transformer (ViT) 架构，适配为一维光谱数据处理
编码器：接收原始波长网格上的光谱数据，生成均匀的波长感知嵌入
解码器：从嵌入重建原始光谱，支持任意输出波长网格
自监督预训练 + 轻量下游适配

关键设计¶

连续波长嵌入：
- 使用逐像素正弦位置编码 \(PE(\lambda)_k\)，频率 \(\omega_k\) 在 log 空间等距分布
- 直接对原始波长网格操作，无需重采样或插值
- 波长嵌入与流量 patch 相加，注入波长位置信息
异构输入处理：
- 光谱归一化：除以中位流量，聚焦相对变化
- patch 级掩码：超过半数坏像素的 patch 标记为无效
- 注意力计算中自动忽略坏 patch
损失感知重建：
- 解码器接收目标波长网格的正弦嵌入作为额外输入
- 高斯似然重建损失，仅在有效像素上计算
- \(\mathcal{L} = \frac{1}{N}\sum_i m_i \frac{(y_i - \hat{y}_i)^2}{\sigma_i^2}\)
- 以测量误差 \(\sigma_i\) 加权，高信噪比像素贡献更大

损失函数 / 训练策略¶

编码器 6 层、解码器 6 层，嵌入维度 512，8 个注意力头
patch 大小 32 像素，批大小 64
AdamW 优化器，学习率 1e-4，训练 600k 步
4 张 NVIDIA A100-SXM4-40GB，训练 48 小时

实验关键数据¶

训练数据概览¶

数据集	波长范围	分辨率	目标类型
SDSS DR17	3600-10400 Å	R~2000	星系/类星体/恒星
DESI DR1	3600-9800 Å	R~5000	星系/类星体/恒星
GALAH DR3	4700-7900 Å	R~28000	恒星
APOGEE	1.51-1.7 μm	R~22500	恒星

主实验¶

目标分类（DESI 光谱）

模型	星系	类星体	恒星	平均
Zhong et al. (专用模型)	93%	99%	98%	96%
本文 + 适配模块	94%	97%	98%	96%

恒星参数估计（APOGEE 光谱）

模型	log g	T_eff	[Fe/H]
The Cannon 2	0.07 dex	38 K	0.03 dex
astroNN	0.05 dex	30 K	0.02 dex
Olney et al.	0.15 dex	100 K	0.07 dex
本文 + 适配模块	0.07 dex	23 K	0.02 dex

关键发现¶

单一模型实现了跨4个巡天、跨光学/红外、跨恒星/星系/类星体的统一表征
无监督学到的嵌入空间自然呈现物理结构：UMAP 可视化显示恒星质量和红移的清晰梯度
轻量适配模块（冻结编码器 + 线性层）即可达到与专用基线竞争的下游性能
重建质量横跨多个数量级的流量和多种物理现象

亮点与洞察¶

首次实现跨巡天、跨分辨率、跨天体类型的统一光谱模型，具有重要的方法论意义
连续波长嵌入的设计优雅地避免了固定网格的限制，可自然推广到时间序列等其他不规则序列数据
预训练表征无需红移信息即可工作，打破了"先估红移再分析"的循环依赖
架构设计的领域无关性使其成为科学基础模型的潜在构建模块

局限与展望¶

当前未进行掩码自编码或对比学习等更高级的预训练目标实验
下游任务使用简单的均值池化，损失了序列内部的波长依赖信息
未展示跨巡天迁移学习的能力（如用一个巡天训练，另一个巡天测试）
模型规模相对较小（6+6 层），更大模型的性能提升有待探索

评分¶

新颖性：⭐⭐⭐⭐⭐ （问题定义和解决方案均具有开创性）
技术贡献：⭐⭐⭐⭐ （通用架构设计简洁有效）
实验充分度：⭐⭐⭐⭐ （多数据集、多任务验证）
写作质量：⭐⭐⭐⭐ （动机清晰，展示充分）