Universal Spectral Tokenization via Self-Supervised Panchromatic Representation Learning¶
会议: NeurIPS 2025
arXiv: 2510.17959
代码: 无
领域: 天文光谱学, 基础模型, 自监督学习
关键词: 光谱 Tokenizer, 异构数据统一, Vision Transformer, 自监督预训练, 天文学
一句话总结¶
提出首个通用光谱 Tokenizer,通过连续波长嵌入和自监督重建目标,在原始波长网格上联合训练异构天文光谱数据(SDSS/DESI/GALAH/APOGEE),生成对齐、均匀且物理有意义的表征。
研究背景与动机¶
核心矛盾¶
核心矛盾:大型天文巡天(SDSS、DESI 等)已采集数百万条光谱,但覆盖不同波长范围和分辨率
领域现状¶
领域现状:现有分析流程碎片化:每个巡天需要独立的预处理和特定任务模型,无法跨巡天共享知识
现有痛点¶
现有痛点:固定网格方法统一多分辨率数据会导致插值伪影,且在宽波长范围内计算不可行(需 ~300K 像素)
解决思路¶
解决思路:科学基础模型的核心挑战:如何从不规则、多分辨率序列数据中学习通用表征
方法详解¶
整体框架¶
- 基于 Vision Transformer (ViT) 架构,适配为一维光谱数据处理
- 编码器:接收原始波长网格上的光谱数据,生成均匀的波长感知嵌入
- 解码器:从嵌入重建原始光谱,支持任意输出波长网格
- 自监督预训练 + 轻量下游适配
关键设计¶
-
连续波长嵌入:
- 使用逐像素正弦位置编码 \(PE(\lambda)_k\),频率 \(\omega_k\) 在 log 空间等距分布
- 直接对原始波长网格操作,无需重采样或插值
- 波长嵌入与流量 patch 相加,注入波长位置信息
-
异构输入处理:
- 光谱归一化:除以中位流量,聚焦相对变化
- patch 级掩码:超过半数坏像素的 patch 标记为无效
- 注意力计算中自动忽略坏 patch
-
损失感知重建:
- 解码器接收目标波长网格的正弦嵌入作为额外输入
- 高斯似然重建损失,仅在有效像素上计算
- \(\mathcal{L} = \frac{1}{N}\sum_i m_i \frac{(y_i - \hat{y}_i)^2}{\sigma_i^2}\)
- 以测量误差 \(\sigma_i\) 加权,高信噪比像素贡献更大
损失函数 / 训练策略¶
- 编码器 6 层、解码器 6 层,嵌入维度 512,8 个注意力头
- patch 大小 32 像素,批大小 64
- AdamW 优化器,学习率 1e-4,训练 600k 步
- 4 张 NVIDIA A100-SXM4-40GB,训练 48 小时
实验关键数据¶
训练数据概览¶
| 数据集 | 波长范围 | 分辨率 | 目标类型 |
|---|---|---|---|
| SDSS DR17 | 3600-10400 Å | R~2000 | 星系/类星体/恒星 |
| DESI DR1 | 3600-9800 Å | R~5000 | 星系/类星体/恒星 |
| GALAH DR3 | 4700-7900 Å | R~28000 | 恒星 |
| APOGEE | 1.51-1.7 μm | R~22500 | 恒星 |
主实验¶
目标分类(DESI 光谱)
| 模型 | 星系 | 类星体 | 恒星 | 平均 |
|---|---|---|---|---|
| Zhong et al. (专用模型) | 93% | 99% | 98% | 96% |
| 本文 + 适配模块 | 94% | 97% | 98% | 96% |
恒星参数估计(APOGEE 光谱)
| 模型 | log g | T_eff | [Fe/H] |
|---|---|---|---|
| The Cannon 2 | 0.07 dex | 38 K | 0.03 dex |
| astroNN | 0.05 dex | 30 K | 0.02 dex |
| Olney et al. | 0.15 dex | 100 K | 0.07 dex |
| 本文 + 适配模块 | 0.07 dex | 23 K | 0.02 dex |
关键发现¶
- 单一模型实现了跨4个巡天、跨光学/红外、跨恒星/星系/类星体的统一表征
- 无监督学到的嵌入空间自然呈现物理结构:UMAP 可视化显示恒星质量和红移的清晰梯度
- 轻量适配模块(冻结编码器 + 线性层)即可达到与专用基线竞争的下游性能
- 重建质量横跨多个数量级的流量和多种物理现象
亮点与洞察¶
- 首次实现跨巡天、跨分辨率、跨天体类型的统一光谱模型,具有重要的方法论意义
- 连续波长嵌入的设计优雅地避免了固定网格的限制,可自然推广到时间序列等其他不规则序列数据
- 预训练表征无需红移信息即可工作,打破了"先估红移再分析"的循环依赖
- 架构设计的领域无关性使其成为科学基础模型的潜在构建模块
局限与展望¶
- 当前未进行掩码自编码或对比学习等更高级的预训练目标实验
- 下游任务使用简单的均值池化,损失了序列内部的波长依赖信息
- 未展示跨巡天迁移学习的能力(如用一个巡天训练,另一个巡天测试)
- 模型规模相对较小(6+6 层),更大模型的性能提升有待探索
相关工作与启发¶
- 连续位置编码处理不规则网格的方法可推广至医学信号、气候数据等
- "一个编码器 + 多种下游适配"的范式在科学数据领域具有广泛应用前景
- 测量误差加权的重建损失对处理带噪声科学数据具有参考价值
评分¶
- 新颖性:⭐⭐⭐⭐⭐ (问题定义和解决方案均具有开创性)
- 技术贡献:⭐⭐⭐⭐ (通用架构设计简洁有效)
- 实验充分度:⭐⭐⭐⭐ (多数据集、多任务验证)
- 写作质量:⭐⭐⭐⭐ (动机清晰,展示充分)
相关论文¶
- [ICML 2025] TimePoint: Accelerated Time Series Alignment via Self-Supervised Keypoint and Descriptor Learning
- [ECCV 2024] OmniSat: Self-Supervised Modality Fusion for Earth Observation
- [NeurIPS 2025] WaLRUS: Wavelets for Long-range Representation Using SSMs
- [NeurIPS 2025] Fern: Chaining Spectral Pearls — Ellipsoidal Forecasting Beyond Trajectories for Time Series
- [NeurIPS 2025] SynTSBench: Rethinking Temporal Pattern Learning in Deep Learning Models for Time Series