跳转至

Universal Spectral Tokenization via Self-Supervised Panchromatic Representation Learning

会议: NeurIPS 2025
arXiv: 2510.17959
代码: 无
领域: 天文光谱学, 基础模型, 自监督学习
关键词: 光谱 Tokenizer, 异构数据统一, Vision Transformer, 自监督预训练, 天文学

一句话总结

提出首个通用光谱 Tokenizer,通过连续波长嵌入和自监督重建目标,在原始波长网格上联合训练异构天文光谱数据(SDSS/DESI/GALAH/APOGEE),生成对齐、均匀且物理有意义的表征。

研究背景与动机

核心矛盾

核心矛盾:大型天文巡天(SDSS、DESI 等)已采集数百万条光谱,但覆盖不同波长范围和分辨率

领域现状

领域现状:现有分析流程碎片化:每个巡天需要独立的预处理和特定任务模型,无法跨巡天共享知识

现有痛点

现有痛点:固定网格方法统一多分辨率数据会导致插值伪影,且在宽波长范围内计算不可行(需 ~300K 像素)

解决思路

解决思路:科学基础模型的核心挑战:如何从不规则、多分辨率序列数据中学习通用表征

方法详解

整体框架

  • 基于 Vision Transformer (ViT) 架构,适配为一维光谱数据处理
  • 编码器:接收原始波长网格上的光谱数据,生成均匀的波长感知嵌入
  • 解码器:从嵌入重建原始光谱,支持任意输出波长网格
  • 自监督预训练 + 轻量下游适配

关键设计

  1. 连续波长嵌入

    • 使用逐像素正弦位置编码 \(PE(\lambda)_k\),频率 \(\omega_k\) 在 log 空间等距分布
    • 直接对原始波长网格操作,无需重采样或插值
    • 波长嵌入与流量 patch 相加,注入波长位置信息
  2. 异构输入处理

    • 光谱归一化:除以中位流量,聚焦相对变化
    • patch 级掩码:超过半数坏像素的 patch 标记为无效
    • 注意力计算中自动忽略坏 patch
  3. 损失感知重建

    • 解码器接收目标波长网格的正弦嵌入作为额外输入
    • 高斯似然重建损失,仅在有效像素上计算
    • \(\mathcal{L} = \frac{1}{N}\sum_i m_i \frac{(y_i - \hat{y}_i)^2}{\sigma_i^2}\)
    • 以测量误差 \(\sigma_i\) 加权,高信噪比像素贡献更大

损失函数 / 训练策略

  • 编码器 6 层、解码器 6 层,嵌入维度 512,8 个注意力头
  • patch 大小 32 像素,批大小 64
  • AdamW 优化器,学习率 1e-4,训练 600k 步
  • 4 张 NVIDIA A100-SXM4-40GB,训练 48 小时

实验关键数据

训练数据概览

数据集 波长范围 分辨率 目标类型
SDSS DR17 3600-10400 Å R~2000 星系/类星体/恒星
DESI DR1 3600-9800 Å R~5000 星系/类星体/恒星
GALAH DR3 4700-7900 Å R~28000 恒星
APOGEE 1.51-1.7 μm R~22500 恒星

主实验

目标分类(DESI 光谱)

模型 星系 类星体 恒星 平均
Zhong et al. (专用模型) 93% 99% 98% 96%
本文 + 适配模块 94% 97% 98% 96%

恒星参数估计(APOGEE 光谱)

模型 log g T_eff [Fe/H]
The Cannon 2 0.07 dex 38 K 0.03 dex
astroNN 0.05 dex 30 K 0.02 dex
Olney et al. 0.15 dex 100 K 0.07 dex
本文 + 适配模块 0.07 dex 23 K 0.02 dex

关键发现

  • 单一模型实现了跨4个巡天、跨光学/红外、跨恒星/星系/类星体的统一表征
  • 无监督学到的嵌入空间自然呈现物理结构:UMAP 可视化显示恒星质量和红移的清晰梯度
  • 轻量适配模块(冻结编码器 + 线性层)即可达到与专用基线竞争的下游性能
  • 重建质量横跨多个数量级的流量和多种物理现象

亮点与洞察

  • 首次实现跨巡天、跨分辨率、跨天体类型的统一光谱模型,具有重要的方法论意义
  • 连续波长嵌入的设计优雅地避免了固定网格的限制,可自然推广到时间序列等其他不规则序列数据
  • 预训练表征无需红移信息即可工作,打破了"先估红移再分析"的循环依赖
  • 架构设计的领域无关性使其成为科学基础模型的潜在构建模块

局限与展望

  • 当前未进行掩码自编码或对比学习等更高级的预训练目标实验
  • 下游任务使用简单的均值池化,损失了序列内部的波长依赖信息
  • 未展示跨巡天迁移学习的能力(如用一个巡天训练,另一个巡天测试)
  • 模型规模相对较小(6+6 层),更大模型的性能提升有待探索

相关工作与启发

  • 连续位置编码处理不规则网格的方法可推广至医学信号、气候数据等
  • "一个编码器 + 多种下游适配"的范式在科学数据领域具有广泛应用前景
  • 测量误差加权的重建损失对处理带噪声科学数据具有参考价值

评分

  • 新颖性:⭐⭐⭐⭐⭐ (问题定义和解决方案均具有开创性)
  • 技术贡献:⭐⭐⭐⭐ (通用架构设计简洁有效)
  • 实验充分度:⭐⭐⭐⭐ (多数据集、多任务验证)
  • 写作质量:⭐⭐⭐⭐ (动机清晰,展示充分)

相关论文