跳转至

AstroCo: Self-Supervised Conformer-Style Transformers for Light-Curve Embeddings

会议: NeurIPS 2025 (ML4PS Workshop)
arXiv: 2509.24134
代码: 待公开
领域: self_supervised
关键词: 自监督学习, Conformer, 光变曲线, 天文时间序列, 掩码重建, 少样本分类


一句话总结

提出 AstroCo,一种将 Conformer(注意力 + 深度可分离卷积 + 门控)引入天文不规则光变曲线的自监督编码器,在 MACHO 数据集上重建误差比 Astromer v1/v2 降低 61-70%,少样本分类 macro-F1 提升约 7%。


研究背景与动机

  1. 天文大规模巡天:MACHO、LSST 等巡天产生海量无标签恒星光变曲线,人工打标极其昂贵,迫切需要标签高效的表示学习方法。
  2. 自监督先驱 Astromer:Donoso-Oliva 等提出 Astromer v1/v2,基于纯 Transformer 编码器做掩码重建预训练,是该领域的代表性工作。
  3. 纯注意力的局限:标准 Transformer 对每个时间步一视同仁,难以捕获光变曲线中短时局部现象(凹陷、耀斑、爆发),也缺乏对噪声/远距离观测的显式调控。
  4. Conformer 的启发:语音识别领域的 Conformer(Gulati et al., 2020)证明"注意力 + 卷积"互补架构可同时建模全局依赖和局部模式。
  5. 门控机制:GLU(Dauphin et al., 2017)可让网络自适应选择哪些局部特征保留,这对噪声较大的天文观测尤为重要。
  6. 核心动机:将 Conformer 风格迁移到不规则天文时间序列,以更少训练资源获得更好的重建精度和下游分类性能。

方法详解

整体框架

光变曲线 {(t_i, m_i, σ_i)} 
    → 输入嵌入(拼接融合而非加法融合)
    → M 个 Conformer-style 编码块
    → 层间可学习标量混合(Scalar Mixing)
    → 掩码均值池化 → 序列嵌入

三大子层设计

(1) 多头自注意力(MHSA)

  • 标准多头自注意力 + Dropout + 残差 + LayerNorm(post-norm)。
  • 负责建模光变曲线中任意两个时间步之间的长程依赖关系。

(2) 深度可分离卷积子层(Depthwise Conv + GLU)

  • 先 LayerNorm → 1×1 逐点投影将维度从 D 扩展到 2D → GLU 门控(分为 val 和 gate,\(\text{val} \odot \sigma(\text{gate})\))。
  • 然后深度可分离 Conv1D(核大小 K=32,经超参搜索 K=5~128 后选定),在时间维度内按通道独立卷积,捕获局部时序模式。
  • BatchNorm1d → SiLU 激活 → 1×1 逐点投影回 D → 残差 + LN。

(3) 门控前馈网络(Gated FFN)

  • 扩展比 r=4,输入分别投影到两个 rD 维向量:
  • \(\text{val} = \text{GeLU}(W_{\text{val}} X)\)
  • \(\text{gate} = \sigma(W_{\text{gate}} X)\)
  • 输出 \(Y = X + \text{Dropout}(W_{\text{out}}(\text{val} \odot \text{gate}))\),再接 LN。
  • 门控机制自适应决定哪些全局特征被保留。

输入嵌入

  • 光度值 \((m_i, \sigma_i)\) 投影到 d/2 维;时间 \(t_i\) 用正弦嵌入映射到 d/2 维。
  • 两者拼接后经线性层 + GeLU + LN 融合为 d 维,避免了加法融合的尺度不匹配问题。
  • 掩码/填充 token 用零占位替换原始值,防止信息泄漏。

层间标量混合(Scalar Mixing)

  • 受 BERT 层分析(Tenney et al., 2019)启发,学习标量权重 \(\{w_\ell\}\)(包含输入层),经 softmax 归一化:\(\alpha_\ell = \frac{\exp(w_\ell)}{\sum_j \exp(w_j)}\)
  • 最终表征 \(\tilde{x}_i = \sum_{\ell=0}^{M} \alpha_\ell x_i^{(\ell)}\),让模型自适应融合浅层和深层特征。

训练损失

  • 预训练:BERT 风格掩码重建,50% 位置为探测目标(其中 30% 掩码、10% 随机替换、10% 不变),损失为探测位置上的 RMSE。
  • 下游分类:冻结编码器,仅训练线性头,使用交叉熵损失。

实验

数据集

  • 预训练:MACHO 巡天 RR 波段,约 150 万条单波段光变曲线,窗口长度 200。
  • 分类:MACHO LMC 变星目录,20,894 条光变曲线,6 类(Cepheid I/II、食双星、长周期变星、RR Lyrae ab/c)。

掩码重建结果(Table 1)

模型 RMSE ↓ R² ↑
Astromer v1 0.148
Astromer v2 0.113 0.73
AstroCo-S (5.9M) 0.060 0.922
AstroCo-L (15.2M) 0.044 0.956
  • AstroCo-S 比 v1 降低 59% RMSE,比 v2 降低 47%
  • AstroCo-L 比 v1 降低 70%,比 v2 降低 61%

少样本分类结果

  • 在 20/100/500 标签/类的 few-shot 设置下,冻结编码器 + 线性头的 AstroCo-S/L 均优于 Astromer v1/v2。
  • 相对 macro-F1 提升约 7%(Figure 3)。
  • 3 折 × 3 种子取平均,方差稳定。

关键发现

  1. 局部卷积 + 门控的加入显著提升了纯注意力编码器的表征质量。
  2. 标量混合优于固定池化策略(如仅取最后一层)。
  3. AstroCo-S(5.9M 参数,11.6h,4×A100)已超越 Astromer v1/v2(5.4M 参数,3 天,4×A5000),资源效率更高。
  4. AstroCo-L(15.2M,1.2 天,4×H200)进一步刷新最优基准。

亮点

  • 跨领域迁移成功:将语音领域的 Conformer 设计迁移到天文不规则时间序列,验证了"注意力 + 局部卷积 + 门控"的通用性。
  • 高资源效率:小模型 AstroCo-S 用更少算力就超越了之前的基线。
  • 拼接融合取代加法融合,避免量纲/尺度不匹配,是工程上很实用的改进。
  • 标量混合允许模型自适应利用不同深度的特征,比固定用最后一层更灵活。
  • 自监督 → 冻结 → 线性探测的范式在天文领域验证了 foundation model 的少样本迁移能力。

局限性

  • 仅为 Workshop 论文:实验规模和分析深度有限,仅使用了 MACHO 单一巡天数据集。
  • 单波段:未涉及多波段融合,而现代巡天(如 LSST)天然多波段。
  • 下游任务单一:仅评估了变星分类,未测试异常检测、周期估计等其他重要天文任务。
  • 消融不充分:缺少对门控、卷积、标量混合各组件单独的消融实验。
  • 可解释性不足:标量混合权重的分布未做分析,门控机制的行为缺乏可视化。
  • 未开源:代码和预训练权重尚未公开,可复现性存疑。

相关工作

工作 核心思路 与本文关系
Astromer v1 (2023) Transformer 掩码重建预训练光变曲线 直接基线,AstroCo 在其基础上加入卷积和门控
Astromer v2 (2025) 改进的 Transformer 编码器 更强基线,AstroCo 仍显著优于之
Conformer (Gulati 2020) 注意力 + 卷积,用于语音识别 架构灵感来源
GLU (Dauphin 2017) 门控线性单元用于语言建模 卷积子层的核心门控机制
BERT (Devlin 2019) 掩码语言模型预训练 预训练掩码策略的来源
Scalar Mixing (Tenney 2019) 层间特征加权 层间聚合的灵感来源

评分

  • 新颖性: ⭐⭐⭐ — Conformer 迁移到天文时间序列有一定新意,但架构组件本身(MHSA、GLU、depthwise conv、scalar mixing)均为已有技术的组合。
  • 实验充分度: ⭐⭐⭐ — 掩码重建和少样本分类两个维度的评估清晰,但仅单数据集、缺消融、下游任务有限。
  • 写作质量: ⭐⭐⭐⭐ — Workshop 论文篇幅内结构清晰、表述准确,架构图和公式完整。
  • 价值: ⭐⭐⭐⭐ — 对天文自监督学习社区有较好参考价值,验证了 Conformer 在不规则时间序列上的有效性,资源效率亮点突出。