AstroCo: Self-Supervised Conformer-Style Transformers for Light-Curve Embeddings¶
会议: NeurIPS 2025 (ML4PS Workshop)
arXiv: 2509.24134
代码: 待公开
领域: self_supervised
关键词: 自监督学习, Conformer, 光变曲线, 天文时间序列, 掩码重建, 少样本分类
一句话总结¶
提出 AstroCo,一种将 Conformer(注意力 + 深度可分离卷积 + 门控)引入天文不规则光变曲线的自监督编码器,在 MACHO 数据集上重建误差比 Astromer v1/v2 降低 61-70%,少样本分类 macro-F1 提升约 7%。
研究背景与动机¶
- 天文大规模巡天:MACHO、LSST 等巡天产生海量无标签恒星光变曲线,人工打标极其昂贵,迫切需要标签高效的表示学习方法。
- 自监督先驱 Astromer:Donoso-Oliva 等提出 Astromer v1/v2,基于纯 Transformer 编码器做掩码重建预训练,是该领域的代表性工作。
- 纯注意力的局限:标准 Transformer 对每个时间步一视同仁,难以捕获光变曲线中短时局部现象(凹陷、耀斑、爆发),也缺乏对噪声/远距离观测的显式调控。
- Conformer 的启发:语音识别领域的 Conformer(Gulati et al., 2020)证明"注意力 + 卷积"互补架构可同时建模全局依赖和局部模式。
- 门控机制:GLU(Dauphin et al., 2017)可让网络自适应选择哪些局部特征保留,这对噪声较大的天文观测尤为重要。
- 核心动机:将 Conformer 风格迁移到不规则天文时间序列,以更少训练资源获得更好的重建精度和下游分类性能。
方法详解¶
整体框架¶
光变曲线 {(t_i, m_i, σ_i)}
→ 输入嵌入(拼接融合而非加法融合)
→ M 个 Conformer-style 编码块
→ 层间可学习标量混合(Scalar Mixing)
→ 掩码均值池化 → 序列嵌入
三大子层设计¶
(1) 多头自注意力(MHSA)¶
- 标准多头自注意力 + Dropout + 残差 + LayerNorm(post-norm)。
- 负责建模光变曲线中任意两个时间步之间的长程依赖关系。
(2) 深度可分离卷积子层(Depthwise Conv + GLU)¶
- 先 LayerNorm → 1×1 逐点投影将维度从 D 扩展到 2D → GLU 门控(分为 val 和 gate,\(\text{val} \odot \sigma(\text{gate})\))。
- 然后深度可分离 Conv1D(核大小 K=32,经超参搜索 K=5~128 后选定),在时间维度内按通道独立卷积,捕获局部时序模式。
- BatchNorm1d → SiLU 激活 → 1×1 逐点投影回 D → 残差 + LN。
(3) 门控前馈网络(Gated FFN)¶
- 扩展比 r=4,输入分别投影到两个 rD 维向量:
- \(\text{val} = \text{GeLU}(W_{\text{val}} X)\)
- \(\text{gate} = \sigma(W_{\text{gate}} X)\)
- 输出 \(Y = X + \text{Dropout}(W_{\text{out}}(\text{val} \odot \text{gate}))\),再接 LN。
- 门控机制自适应决定哪些全局特征被保留。
输入嵌入¶
- 光度值 \((m_i, \sigma_i)\) 投影到 d/2 维;时间 \(t_i\) 用正弦嵌入映射到 d/2 维。
- 两者拼接后经线性层 + GeLU + LN 融合为 d 维,避免了加法融合的尺度不匹配问题。
- 掩码/填充 token 用零占位替换原始值,防止信息泄漏。
层间标量混合(Scalar Mixing)¶
- 受 BERT 层分析(Tenney et al., 2019)启发,学习标量权重 \(\{w_\ell\}\)(包含输入层),经 softmax 归一化:\(\alpha_\ell = \frac{\exp(w_\ell)}{\sum_j \exp(w_j)}\)。
- 最终表征 \(\tilde{x}_i = \sum_{\ell=0}^{M} \alpha_\ell x_i^{(\ell)}\),让模型自适应融合浅层和深层特征。
训练损失¶
- 预训练:BERT 风格掩码重建,50% 位置为探测目标(其中 30% 掩码、10% 随机替换、10% 不变),损失为探测位置上的 RMSE。
- 下游分类:冻结编码器,仅训练线性头,使用交叉熵损失。
实验¶
数据集¶
- 预训练:MACHO 巡天 RR 波段,约 150 万条单波段光变曲线,窗口长度 200。
- 分类:MACHO LMC 变星目录,20,894 条光变曲线,6 类(Cepheid I/II、食双星、长周期变星、RR Lyrae ab/c)。
掩码重建结果(Table 1)¶
| 模型 | RMSE ↓ | R² ↑ |
|---|---|---|
| Astromer v1 | 0.148 | — |
| Astromer v2 | 0.113 | 0.73 |
| AstroCo-S (5.9M) | 0.060 | 0.922 |
| AstroCo-L (15.2M) | 0.044 | 0.956 |
- AstroCo-S 比 v1 降低 59% RMSE,比 v2 降低 47%。
- AstroCo-L 比 v1 降低 70%,比 v2 降低 61%。
少样本分类结果¶
- 在 20/100/500 标签/类的 few-shot 设置下,冻结编码器 + 线性头的 AstroCo-S/L 均优于 Astromer v1/v2。
- 相对 macro-F1 提升约 7%(Figure 3)。
- 3 折 × 3 种子取平均,方差稳定。
关键发现¶
- 局部卷积 + 门控的加入显著提升了纯注意力编码器的表征质量。
- 标量混合优于固定池化策略(如仅取最后一层)。
- AstroCo-S(5.9M 参数,11.6h,4×A100)已超越 Astromer v1/v2(5.4M 参数,3 天,4×A5000),资源效率更高。
- AstroCo-L(15.2M,1.2 天,4×H200)进一步刷新最优基准。
亮点¶
- 跨领域迁移成功:将语音领域的 Conformer 设计迁移到天文不规则时间序列,验证了"注意力 + 局部卷积 + 门控"的通用性。
- 高资源效率:小模型 AstroCo-S 用更少算力就超越了之前的基线。
- 拼接融合取代加法融合,避免量纲/尺度不匹配,是工程上很实用的改进。
- 标量混合允许模型自适应利用不同深度的特征,比固定用最后一层更灵活。
- 自监督 → 冻结 → 线性探测的范式在天文领域验证了 foundation model 的少样本迁移能力。
局限性¶
- 仅为 Workshop 论文:实验规模和分析深度有限,仅使用了 MACHO 单一巡天数据集。
- 单波段:未涉及多波段融合,而现代巡天(如 LSST)天然多波段。
- 下游任务单一:仅评估了变星分类,未测试异常检测、周期估计等其他重要天文任务。
- 消融不充分:缺少对门控、卷积、标量混合各组件单独的消融实验。
- 可解释性不足:标量混合权重的分布未做分析,门控机制的行为缺乏可视化。
- 未开源:代码和预训练权重尚未公开,可复现性存疑。
相关工作¶
| 工作 | 核心思路 | 与本文关系 |
|---|---|---|
| Astromer v1 (2023) | Transformer 掩码重建预训练光变曲线 | 直接基线,AstroCo 在其基础上加入卷积和门控 |
| Astromer v2 (2025) | 改进的 Transformer 编码器 | 更强基线,AstroCo 仍显著优于之 |
| Conformer (Gulati 2020) | 注意力 + 卷积,用于语音识别 | 架构灵感来源 |
| GLU (Dauphin 2017) | 门控线性单元用于语言建模 | 卷积子层的核心门控机制 |
| BERT (Devlin 2019) | 掩码语言模型预训练 | 预训练掩码策略的来源 |
| Scalar Mixing (Tenney 2019) | 层间特征加权 | 层间聚合的灵感来源 |
评分¶
- 新颖性: ⭐⭐⭐ — Conformer 迁移到天文时间序列有一定新意,但架构组件本身(MHSA、GLU、depthwise conv、scalar mixing)均为已有技术的组合。
- 实验充分度: ⭐⭐⭐ — 掩码重建和少样本分类两个维度的评估清晰,但仅单数据集、缺消融、下游任务有限。
- 写作质量: ⭐⭐⭐⭐ — Workshop 论文篇幅内结构清晰、表述准确,架构图和公式完整。
- 价值: ⭐⭐⭐⭐ — 对天文自监督学习社区有较好参考价值,验证了 Conformer 在不规则时间序列上的有效性,资源效率亮点突出。