Exoplanet Formation Inference Using Conditional Invertible Neural Networks¶

会议: NeurIPS 2025
arXiv: 2512.05751
代码: 无
领域: 物理 / 行星科学
关键词: 系外行星, 条件可逆神经网络, 贝叶斯推断, 行星形成, 代理模型

一句话总结¶

用条件可逆神经网络（cINN）训练于15,777颗合成行星数据，从观测量（行星质量、轨道距离）快速推断行星形成参数（盘质量、湍流α、尘气比），实现比物理模型快~10⁶倍的概率性参数回溯，并证明多行星系统数据比单行星数据更鲁棒。

领域现状：理解系外行星起源需要从观测的行星属性追溯形成参数，但直接MCMC方法不可行——全球行星形成模型单次模拟耗时数天到数月。
现有痛点：(a) 物理模型计算成本极高，无法进行大规模贝叶斯推断；(b) 行星间引力混沌使参数-观测映射具有随机性；(c) 高维参数空间（盘质量、粘度、尘气比、内边缘等）中数据稀疏。
核心矛盾：需要精确的概率推断但物理模型不可能大规模运行。
本文要解决什么：从有限的合成行星数据集训练快速代理模型，支持实用的行星形成参数贝叶斯推断。
切入角度：cINN提供精确的可逆映射——正向流将参数映射到标准高斯潜空间（条件于观测量），逆向流采样后验分布，天然支持概率推断。
核心idea一句话：用cINN作为行星形成物理模型的代理，从多行星系统的每颗行星单独提取训练样本以增加数据多样性，实现毫秒级概率性参数推断。

物理模型（dust-to-planet全球形成模型）生成合成行星数据→训练cINN学习参数到潜空间的可逆映射（条件于观测量）→推理时从标准高斯采样经逆向流得到后验分布。

全球行星形成模型数据生成：
做什么：生成覆盖参数空间的合成行星样本
核心思路：跟踪尘粒凝结、星子形成、原行星吸积、气盘光蒸发全过程。707个单行星盘 + ~15,777颗多行星系统（每盘最多100颗行星）。4个参数在对数空间变化：盘质量分数(\(10^{-3}\)到\(10^{-0.5}\))、粘性\(\alpha\)(\(10^{-3.5}\)到\(10^{-2}\))、尘气比(\(10^{-2.4}\)到\(10^{-1}\))、内边缘轨道周期(1-20天)
设计动机：多行星系统从每颗行星提取样本，提供~22倍更多样的参数-观测组合
cINN架构：
做什么：学习参数→潜空间的可逆映射
核心思路：16个仿射耦合块，块间随机排列；每个隐层3层×8单元+ReLU。将4D参数 \(\vec{x}\) 映射到4D潜空间 \(\vec{z}\)（单位高斯），条件于2D观测量 \(\vec{c}\)（行星质量、半长轴）。损失：\(L = \frac{1}{2}\|f(x;c)\|^2 - \log|\det \frac{\partial f}{\partial x}| + \|\hat{x}-x\|^2\)
设计动机：可逆映射保证精确的后验采样，无需额外的MCMC步骤
多行星 vs 单行星训练策略：
做什么：比较不同数据组织方式对推断鲁棒性的影响
核心思路：多行星训练从每颗行星单独提取(parameters, observables)对，增加训练样本多样性。单行星训练仅用707个模拟
设计动机：单行星训练在未采样区域产生不物理的外推（高轨道距离预测过大的\(\alpha\)），多行星训练更鲁棒

组合损失：最大似然（潜空间高斯下的负对数似然）+ 重建损失。Adam优化器（\(\beta_1=\beta_2=0.8\), lr=0.001, 衰减\(\gamma=0.99\)/epoch），数据增强加高斯噪声(\(\sigma=0.01\))。

训练数据	MAP偏差(σ)	参数空间覆盖	外推质量
多行星(~15.7k)	0.2（良好）	优秀	物理一致
单行星(707)	0.2（采样区）	差	不物理外推
二行星系统	稳定	改善	良好泛化