Transformer Embeddings for Fast Microlensing Inference¶
会议: NeurIPS 2025
arXiv: 2512.11687
代码: GitHub
领域: 天文学, 时间序列推断
关键词: 微引力透镜, 模拟推断, Transformer, 后验估计, 自由漂浮行星
一句话总结¶
本文将Transformer编码器与神经后验估计(NPE)结合,直接从稀疏、噪声、不等间隔的微引力透镜光变曲线中进行快速且校准良好的参数推断,速度比传统MCMC快10⁴倍以上。
研究背景与动机¶
- 自由漂浮行星(FFP)可能是最丰富的类地质量系外行星,微引力透镜是探测它们的最有前景的技术
- Nancy Grace Roman太空望远镜预计将探测到数千颗FFP,需要快速的信号表征能力
- 传统MCMC方法计算代价高昂,无法扩展到Roman的数十亿光变曲线数据量
- 基于模拟的推断(SBI)提供了摊销(amortized)后验估计框架——训练一次,推断极快
- 此前基于RNN的方法在引入微小数据间断时就灾难性失败,暴露了时间序列分布偏移的经典难题
- Transformer的自注意力机制天然适合处理不等间隔、变长、稀疏的时间序列数据
方法详解¶
整体框架¶
参数θ → 模拟光变曲线 → 数据增强(间断、丢弃、噪声)→ Transformer编码器 → 嵌入z → 归一化流 → 后验 p(θ|x)
关键设计¶
物理模型:有限星源点透镜(FSPL),5个参数: - t₀:最近接近时间 - u₀:最小影响参数 - t_E:爱因斯坦穿越时间 - ρ:归一化源半径 - f_s:源流量分数
数据增强(在线飞行增强): - 季节性间断:0-3个间断,每次1-10天 - 随机丢弃:0%-60%的数据点 - 噪声注入:服从高斯光度噪声,σ∈[0.001, 0.02]
网络架构: - 输入:填充至L=1000的序列,每步3通道 (t_norm, F, σ) - Transformer编码器:6层、8头、256维、512 FFN维 - 正弦位置编码 + 掩码平均池化聚合 - 后验估计器:Masked Autoregressive Flow (MAF)
可恢复性过滤:至少5个点在峰值t_E/2内、至少5个点距峰>2t_E、峰值放大率>5×平均噪声
训练策略¶
- 80,000模拟事件训练 + 20,000验证
- Adam优化器,初始学习率10⁻⁴,ReduceLROnPlateau(0.5因子,10 epoch耐心)
- 单张Nvidia H100 GPU约20小时完成训练
实验关键数据¶
主实验:模拟数据校准¶
| 参数 | 可恢复性分析 |
|---|---|
| t₀ | 全范围良好恢复 |
| u₀ | u₀>ρ时良好恢复(点源类事件) |
| t_E | 良好恢复 |
| ρ | u₀<ρ时良好恢复(有限源效应显著时) |
| f_s | 良好恢复 |
速度对比¶
| 方法 | 生成15,000样本时间 | 加速倍数 |
|---|---|---|
| NPE (GPU) | 0.08秒 | >10⁴× |
| NPE (CPU) | 0.82秒 | ~1.2×10³× |
| MCMC (CPU) | 959秒 | 基线 |
真实数据验证 (KMT-2019-BLG-2073)¶
| 参数 | NPE恢复值 | 文献报告值 |
|---|---|---|
| t₀ | 8708.60±0.02 | 8708.58 |
| u₀ | 0.20±0.11 | 0.32 |
| t_E | 0.355±0.03 | 0.50 |
| ρ | 0.832±0.09 | N/A |
| f_s | 0.82±0.13 | 0.61 |
关键发现¶
- TARP诊断显示后验估计校准良好
- NPE后验与MCMC结果吻合,仅有轻微展宽(摊销推断的固有特性)
- FSPL模型在峰值附近提供优于PSPL的拟合,残差更小
- 参数值差异可能源于使用了不同的测光提取pipeline(pySIS vs TLC)
亮点与洞察¶
- 实用性强:直接处理原始时间序列数据,无需插值或复杂预处理
- 训练一次后推断极快,适合Roman望远镜的大规模数据处理需求
- 在线数据增强策略使模型对各种数据质量问题鲁棒
- 掩码平均池化简单但有效地处理了变长序列
局限与展望¶
- 训练仅使用高斯噪声,未建模系统噪声和假阳性信号(恒星变光等)
- 固定20天窗口限制了对长时标事件的适用性
- 先验设置对SBI方法敏感,需要根据银河系/透镜群体模型调整
- 未消融Transformer各组件的贡献和最优模型大小
- 仅在一个真实事件上验证,需更大规模的验证
相关工作与启发¶
- 与Zhang等人的微引力透镜SBI工作(使用1D ResNet+GRU)相比,关键改进是对不规则采样的自然处理
- Transformer在天文时间序列中的应用趋势(MAVEN、SpectraFM等)
- 与异常检测pipeline互补——SBI用于表征,异常检测用于筛选
评分¶
⭐⭐⭐⭐ — 方法实用且有效,在天文学中的应用场景清晰,速度提升显著,校准质量出色。
相关论文¶
- [NeurIPS 2025] In-Context Learning of Stochastic Differential Equations with Foundation Inference Models
- [ICLR 2026] Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data
- [NeurIPS 2025] Universal Spectral Tokenization via Self-Supervised Panchromatic Representation Learning
- [NeurIPS 2025] Diffusion Transformers for Imputation: Statistical Efficiency and Uncertainty Quantification
- [NeurIPS 2025] Time-O1: Time-Series Forecasting Needs Transformed Label Alignment