AstroCo: Self-Supervised Conformer-Style Transformers for Light-Curve Embeddings¶

会议: NeurIPS 2025 (ML4PS Workshop)
arXiv: 2509.24134
代码: 待公开
领域: self_supervised
关键词: 自监督学习, Conformer, 光变曲线, 天文时间序列, 掩码重建, 少样本分类

一句话总结¶

提出 AstroCo，一种将 Conformer（注意力 + 深度可分离卷积 + 门控）引入天文不规则光变曲线的自监督编码器，在 MACHO 数据集上重建误差比 Astromer v1/v2 降低 61-70%，少样本分类 macro-F1 提升约 7%。

研究背景与动机¶

天文大规模巡天：MACHO、LSST 等巡天产生海量无标签恒星光变曲线，人工打标极其昂贵，迫切需要标签高效的表示学习方法。
自监督先驱 Astromer：Donoso-Oliva 等提出 Astromer v1/v2，基于纯 Transformer 编码器做掩码重建预训练，是该领域的代表性工作。
纯注意力的局限：标准 Transformer 对每个时间步一视同仁，难以捕获光变曲线中短时局部现象（凹陷、耀斑、爆发），也缺乏对噪声/远距离观测的显式调控。
Conformer 的启发：语音识别领域的 Conformer（Gulati et al., 2020）证明"注意力 + 卷积"互补架构可同时建模全局依赖和局部模式。
门控机制：GLU（Dauphin et al., 2017）可让网络自适应选择哪些局部特征保留，这对噪声较大的天文观测尤为重要。
核心动机：将 Conformer 风格迁移到不规则天文时间序列，以更少训练资源获得更好的重建精度和下游分类性能。

方法详解¶

整体框架¶

光变曲线 {(t_i, m_i, σ_i)} 
    → 输入嵌入（拼接融合而非加法融合）
    → M 个 Conformer-style 编码块
    → 层间可学习标量混合（Scalar Mixing）
    → 掩码均值池化 → 序列嵌入

三大子层设计¶

(1) 多头自注意力（MHSA）¶

标准多头自注意力 + Dropout + 残差 + LayerNorm（post-norm）。
负责建模光变曲线中任意两个时间步之间的长程依赖关系。

(2) 深度可分离卷积子层（Depthwise Conv + GLU）¶

先 LayerNorm → 1×1 逐点投影将维度从 D 扩展到 2D → GLU 门控（分为 val 和 gate，\(\text{val} \odot \sigma(\text{gate})\)）。
然后深度可分离 Conv1D（核大小 K=32，经超参搜索 K=5~128 后选定），在时间维度内按通道独立卷积，捕获局部时序模式。
BatchNorm1d → SiLU 激活 → 1×1 逐点投影回 D → 残差 + LN。

(3) 门控前馈网络（Gated FFN）¶

扩展比 r=4，输入分别投影到两个 rD 维向量：
\(\text{val} = \text{GeLU}(W_{\text{val}} X)\)
\(\text{gate} = \sigma(W_{\text{gate}} X)\)
输出 \(Y = X + \text{Dropout}(W_{\text{out}}(\text{val} \odot \text{gate}))\)，再接 LN。
门控机制自适应决定哪些全局特征被保留。

输入嵌入¶

光度值 \((m_i, \sigma_i)\) 投影到 d/2 维；时间 \(t_i\) 用正弦嵌入映射到 d/2 维。
两者拼接后经线性层 + GeLU + LN 融合为 d 维，避免了加法融合的尺度不匹配问题。
掩码/填充 token 用零占位替换原始值，防止信息泄漏。

层间标量混合（Scalar Mixing）¶

受 BERT 层分析（Tenney et al., 2019）启发，学习标量权重 \(\{w_\ell\}\)（包含输入层），经 softmax 归一化：\(\alpha_\ell = \frac{\exp(w_\ell)}{\sum_j \exp(w_j)}\)。
最终表征 \(\tilde{x}_i = \sum_{\ell=0}^{M} \alpha_\ell x_i^{(\ell)}\)，让模型自适应融合浅层和深层特征。

训练损失¶

预训练：BERT 风格掩码重建，50% 位置为探测目标（其中 30% 掩码、10% 随机替换、10% 不变），损失为探测位置上的 RMSE。
下游分类：冻结编码器，仅训练线性头，使用交叉熵损失。

实验¶

数据集¶

预训练：MACHO 巡天 RR 波段，约 150 万条单波段光变曲线，窗口长度 200。
分类：MACHO LMC 变星目录，20,894 条光变曲线，6 类（Cepheid I/II、食双星、长周期变星、RR Lyrae ab/c）。

掩码重建结果（Table 1）¶

模型	RMSE ↓	R² ↑
Astromer v1	0.148	—
Astromer v2	0.113	0.73
AstroCo-S (5.9M)	0.060	0.922
AstroCo-L (15.2M)	0.044	0.956

AstroCo-S 比 v1 降低 59% RMSE，比 v2 降低 47%。
AstroCo-L 比 v1 降低 70%，比 v2 降低 61%。

少样本分类结果¶

在 20/100/500 标签/类的 few-shot 设置下，冻结编码器 + 线性头的 AstroCo-S/L 均优于 Astromer v1/v2。
相对 macro-F1 提升约 7%（Figure 3）。
3 折 × 3 种子取平均，方差稳定。

关键发现¶

局部卷积 + 门控的加入显著提升了纯注意力编码器的表征质量。
标量混合优于固定池化策略（如仅取最后一层）。
AstroCo-S（5.9M 参数，11.6h，4×A100）已超越 Astromer v1/v2（5.4M 参数，3 天，4×A5000），资源效率更高。
AstroCo-L（15.2M，1.2 天，4×H200）进一步刷新最优基准。

亮点¶

跨领域迁移成功：将语音领域的 Conformer 设计迁移到天文不规则时间序列，验证了"注意力 + 局部卷积 + 门控"的通用性。
高资源效率：小模型 AstroCo-S 用更少算力就超越了之前的基线。
拼接融合取代加法融合，避免量纲/尺度不匹配，是工程上很实用的改进。
标量混合允许模型自适应利用不同深度的特征，比固定用最后一层更灵活。
自监督 → 冻结 → 线性探测的范式在天文领域验证了 foundation model 的少样本迁移能力。

局限性¶

仅为 Workshop 论文：实验规模和分析深度有限，仅使用了 MACHO 单一巡天数据集。
单波段：未涉及多波段融合，而现代巡天（如 LSST）天然多波段。
下游任务单一：仅评估了变星分类，未测试异常检测、周期估计等其他重要天文任务。
消融不充分：缺少对门控、卷积、标量混合各组件单独的消融实验。
可解释性不足：标量混合权重的分布未做分析，门控机制的行为缺乏可视化。
未开源：代码和预训练权重尚未公开，可复现性存疑。

评分¶

新颖性: ⭐⭐⭐ — Conformer 迁移到天文时间序列有一定新意，但架构组件本身（MHSA、GLU、depthwise conv、scalar mixing）均为已有技术的组合。
实验充分度: ⭐⭐⭐ — 掩码重建和少样本分类两个维度的评估清晰，但仅单数据集、缺消融、下游任务有限。
写作质量: ⭐⭐⭐⭐ — Workshop 论文篇幅内结构清晰、表述准确，架构图和公式完整。
价值: ⭐⭐⭐⭐ — 对天文自监督学习社区有较好参考价值，验证了 Conformer 在不规则时间序列上的有效性，资源效率亮点突出。

工作	核心思路	与本文关系
Astromer v1 (2023)	Transformer 掩码重建预训练光变曲线	直接基线，AstroCo 在其基础上加入卷积和门控
Astromer v2 (2025)	改进的 Transformer 编码器	更强基线，AstroCo 仍显著优于之
Conformer (Gulati 2020)	注意力 + 卷积，用于语音识别	架构灵感来源
GLU (Dauphin 2017)	门控线性单元用于语言建模	卷积子层的核心门控机制
BERT (Devlin 2019)	掩码语言模型预训练	预训练掩码策略的来源
Scalar Mixing (Tenney 2019)	层间特征加权	层间聚合的灵感来源