跳转至

Transformer Embeddings for Fast Microlensing Inference

会议: NeurIPS 2025
arXiv: 2512.11687
代码: GitHub
领域: 天文学, 时间序列推断
关键词: 微引力透镜, 模拟推断, Transformer, 后验估计, 自由漂浮行星

一句话总结

本文将Transformer编码器与神经后验估计(NPE)结合,直接从稀疏、噪声、不等间隔的微引力透镜光变曲线中进行快速且校准良好的参数推断,速度比传统MCMC快10⁴倍以上。

研究背景与动机

  • 自由漂浮行星(FFP)可能是最丰富的类地质量系外行星,微引力透镜是探测它们的最有前景的技术
  • Nancy Grace Roman太空望远镜预计将探测到数千颗FFP,需要快速的信号表征能力
  • 传统MCMC方法计算代价高昂,无法扩展到Roman的数十亿光变曲线数据量
  • 基于模拟的推断(SBI)提供了摊销(amortized)后验估计框架——训练一次,推断极快
  • 此前基于RNN的方法在引入微小数据间断时就灾难性失败,暴露了时间序列分布偏移的经典难题
  • Transformer的自注意力机制天然适合处理不等间隔、变长、稀疏的时间序列数据

方法详解

整体框架

参数θ → 模拟光变曲线 → 数据增强(间断、丢弃、噪声)→ Transformer编码器 → 嵌入z → 归一化流 → 后验 p(θ|x)

关键设计

物理模型:有限星源点透镜(FSPL),5个参数: - t₀:最近接近时间 - u₀:最小影响参数 - t_E:爱因斯坦穿越时间 - ρ:归一化源半径 - f_s:源流量分数

数据增强(在线飞行增强): - 季节性间断:0-3个间断,每次1-10天 - 随机丢弃:0%-60%的数据点 - 噪声注入:服从高斯光度噪声,σ∈[0.001, 0.02]

网络架构: - 输入:填充至L=1000的序列,每步3通道 (t_norm, F, σ) - Transformer编码器:6层、8头、256维、512 FFN维 - 正弦位置编码 + 掩码平均池化聚合 - 后验估计器:Masked Autoregressive Flow (MAF)

可恢复性过滤:至少5个点在峰值t_E/2内、至少5个点距峰>2t_E、峰值放大率>5×平均噪声

训练策略

  • 80,000模拟事件训练 + 20,000验证
  • Adam优化器,初始学习率10⁻⁴,ReduceLROnPlateau(0.5因子,10 epoch耐心)
  • 单张Nvidia H100 GPU约20小时完成训练

实验关键数据

主实验:模拟数据校准

参数 可恢复性分析
t₀ 全范围良好恢复
u₀ u₀>ρ时良好恢复(点源类事件)
t_E 良好恢复
ρ u₀<ρ时良好恢复(有限源效应显著时)
f_s 良好恢复

速度对比

方法 生成15,000样本时间 加速倍数
NPE (GPU) 0.08秒 >10⁴×
NPE (CPU) 0.82秒 ~1.2×10³×
MCMC (CPU) 959秒 基线

真实数据验证 (KMT-2019-BLG-2073)

参数 NPE恢复值 文献报告值
t₀ 8708.60±0.02 8708.58
u₀ 0.20±0.11 0.32
t_E 0.355±0.03 0.50
ρ 0.832±0.09 N/A
f_s 0.82±0.13 0.61

关键发现

  • TARP诊断显示后验估计校准良好
  • NPE后验与MCMC结果吻合,仅有轻微展宽(摊销推断的固有特性)
  • FSPL模型在峰值附近提供优于PSPL的拟合,残差更小
  • 参数值差异可能源于使用了不同的测光提取pipeline(pySIS vs TLC)

亮点与洞察

  • 实用性强:直接处理原始时间序列数据,无需插值或复杂预处理
  • 训练一次后推断极快,适合Roman望远镜的大规模数据处理需求
  • 在线数据增强策略使模型对各种数据质量问题鲁棒
  • 掩码平均池化简单但有效地处理了变长序列

局限与展望

  • 训练仅使用高斯噪声,未建模系统噪声和假阳性信号(恒星变光等)
  • 固定20天窗口限制了对长时标事件的适用性
  • 先验设置对SBI方法敏感,需要根据银河系/透镜群体模型调整
  • 未消融Transformer各组件的贡献和最优模型大小
  • 仅在一个真实事件上验证,需更大规模的验证

相关工作与启发

  • 与Zhang等人的微引力透镜SBI工作(使用1D ResNet+GRU)相比,关键改进是对不规则采样的自然处理
  • Transformer在天文时间序列中的应用趋势(MAVEN、SpectraFM等)
  • 与异常检测pipeline互补——SBI用于表征,异常检测用于筛选

评分

⭐⭐⭐⭐ — 方法实用且有效,在天文学中的应用场景清晰,速度提升显著,校准质量出色。

相关论文