Causal Discovery of Latent Variables in Galactic Archaeology¶
会议: ICML 2025
arXiv: 2507.00134
代码: 无
领域: 因果推断
关键词: 因果发现, 潜变量, 银河考古学, 结构因果模型, 恒星迁移
一句话总结¶
利用基于秩的潜变量因果发现算法(RLCD),仅从五个可观测恒星属性中,以纯数据驱动的方式自动恢复出两个物理上有意义的潜变量——出生半径和引导半径,验证了因果发现方法在天体物理学中发现隐藏物理量的潜力。
研究背景与动机¶
银河考古学(Galactic Archaeology)通过研究恒星的化学动力学历史来揭示星系的形成与演化过程。然而,天文学本质上是观测科学,无法进行受控实验,因此需要深入理解天体物理系统中变量之间的因果机制,而非仅仅停留在相关性层面。
传统方法依赖人类直觉通过前向建模(forward modeling)匹配观测数据,但这种方式受限于人类对复杂系统的理解能力。更关键的问题是:恒星演化中一些关键物理量——如出生半径(birth radius)和引导半径(guiding radius)——是不可直接观测的潜变量。这些潜变量会混淆可观测变量之间的关系,使因果推断变得极具挑战性。
本文的核心动机是:能否通过自动化的因果图推断方法,从纯观测数据中自动发现这些隐藏的物理量及其与可观测量之间的因果关系?
方法详解¶
整体框架¶
本文采用三阶段管线式方法:
- 因果结构发现:使用 RLCD 算法从五个可观测变量的协方差模式中识别潜变量及因果图结构
- 参数估计:通过最大似然估计量化各因果关系的强度(边系数)
- 潜变量值推断:对每颗恒星估计其对应的潜变量取值
输入为五个可观测恒星属性:
- 金属丰度 [Fe/H]:恒星中铁与氢的比值
- 年龄(Age):恒星年龄
- 垂直作用量 \(J_z\):描述恒星垂直于银盘运动的轨道参数
- 角动量 \(L_z\):恒星绕银河系中心旋转的角动量
- 偏心率 \(e\):恒星轨道的偏心程度
关键设计¶
RLCD 算法¶
RLCD(Rank-based Latent Causal Discovery)是本文的核心算法,其关键洞察是:潜变量会在可观测变量的协方差矩阵中留下可检测的统计特征——具体表现为秩亏缺(rank deficiency)。
算法工作原理:
- 分析可观测变量之间的协变模式
- 当潜变量存在时,它们会以可检测的方式约束这些协变模式
- 通过识别协方差矩阵的秩亏缺,确定:(a)存在多少个潜变量,(b)每个潜变量影响哪些可观测变量,(c)潜变量之间是否存在因果关系
结构因果模型(SCM)¶
因果关系通过有向无环图(DAG)\(\mathcal{G} := (\mathbf{V}_\mathcal{G}, \mathbf{E}_\mathcal{G})\) 建模,每个变量 \(V_i\) 由线性方程生成:
其中:
- \(\text{Pa}_\mathcal{G}(V_i)\) 是 \(V_i\) 的父节点(直接原因)
- \(a_{ij}\) 量化 \(V_j\) 对 \(V_i\) 的因果效应强度
- \(\varepsilon_{V_i}\) 是随机噪声项
- 变量集 \(\mathbf{V}_\mathcal{G}\) 包含可观测变量 \(\mathbf{X}_\mathcal{G}\)(5个测量量)和潜变量 \(\mathbf{L}_\mathcal{G}\)(待发现的隐藏因子)
模拟数据来源¶
实验使用 NIHAO-UHD 项目的高分辨率宇宙学放大流体力学模拟数据:
- 聚焦 g2.79e12 模拟,选取 [Fe/H] > -1 且当前位于 7-10 kpc 范围内的盘星
- 添加观测不确定性:年龄 10%,[Fe/H] 0.02 dex,[O/Fe] 0.06 dex
- 使用 [O/Fe] = -0.13[Fe/H] + 0.17 分离高/低-α 盘,聚焦低-α 盘(世俗演化主导)
损失函数 / 训练策略¶
参数估计:潜变量无固有尺度,因此将每个潜变量的方差固定为 1(标准约定),然后通过最大似然估计找到最能解释观测数据的参数。
潜变量推断:给定因果结构和参数后,对每颗恒星寻找使预测误差最小化的潜变量值,即:
其中 \(f\) 为线性因果模型的前向函数。
实验关键数据¶
主实验¶
RLCD 从五个可观测量中自动识别出两个潜变量 \(L_1\) 和 \(L_2\):
| 潜变量 | 物理对应 | 影响的可观测量 | 验证方式 |
|---|---|---|---|
| \(L_1\) | 出生半径 \(R_b\) | [Fe/H], \(J_z\) | 与 Lu et al. (2024) 推断结果对比,性能相当 |
| \(L_2\) | 引导半径 \(R_g\) | \(L_z\), \(e\) | 与模拟真值直接比较,成功恢复 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅用5个可观测量 | 发现2个潜变量 | 无需先验知识即可恢复物理量 |
| \(L_1\) vs Lu et al. (2024) | 性能相当 | RLCD 达到有监督方法的水平 |
| \(L_2\) vs 真实引导半径 | 直接恢复 | 纯数据驱动方式准确恢复 |
| 低-α 盘 vs 高-α 盘 | 聚焦低-α 盘 | 世俗过程主导,因果关系更清晰 |
关键发现¶
-
\(L_1\) 编码出生条件:影响 [Fe/H] 和 \(J_z\),这与物理认知一致——不同银河半径处出生的恒星因径向丰度梯度具有不同金属丰度,其垂直运动通过差异化引力势保留了出生环境记忆
-
\(L_2\) 编码轨道特征:直接影响 \(L_z\) 和 \(e\),这两个量共同定义恒星的引导半径。恒星通过与巨分子云的引力散射发展出偏心轨道("blurring"过程),该过程保持角动量但增加偏心率
-
化学丰度空间分布一致性:在年龄-金属丰度平面和 α 丰度平面上,\(L_1\) 的分布模式与模拟真值和 Lu et al. (2024) 的推断结果高度一致——年轻富金属恒星起源于较小银河半径,年老贫金属恒星来自较大半径,反映了由内向外的星系形成过程
-
因果图结构与物理理论吻合:发现的因果关系与银河化学演化的已有认知完全一致,表明 RLCD 能够以无监督方式恢复真实物理机制
亮点与洞察¶
- 方法论创新:首次将潜变量因果发现方法成功应用于银河考古学,证明可以从纯观测数据中自动恢复不可观测的物理量
- 物理可解释性极强:发现的两个潜变量直接对应已知的物理概念(出生半径和引导半径),而非抽象的统计因子
- 无监督 vs 有监督:\(L_1\) 在没有任何标签的情况下达到了有监督方法(Lu et al., 2024)的性能水平,说明因果结构本身编码了丰富的物理信息
- 线性假设的适用性:尽管采用线性 SCM,算法仍能捕获关键的因果结构,暗示银河化学演化的主导关系可以用线性近似
- 跨学科示范:为因果发现方法在物理科学中的应用提供了令人信服的案例研究
局限与展望¶
- 线性假设:当前方法限于线性 SCM,真实天体物理系统中的非线性效应可能被忽略,未来可探索非线性因果发现方法
- 依赖模拟数据:验证基于 NIHAO-UHD 模拟,尚未在真实观测数据上验证,模拟与真实银河系之间可能存在系统性差异
- 仅分析低-α 盘:高-α 盘的湍流富气体形成环境可能具有更复杂的因果结构,当前框架的适用性有待检验
- 观测不确定性建模:虽然添加了噪声,但真实数据的不确定性结构可能更加复杂
- 可扩展性:仅使用5个可观测量和2个潜变量,当变量数量增加时算法的稳定性和计算效率需要进一步研究
- 因果效应强度的置信区间:目前给出了点估计的边系数,但未提供不确定性量化
相关工作与启发¶
- RLCD (Dong et al., 2024; 2025):本文核心算法,基于秩亏缺进行潜变量因果发现,已在合成和真实数据上验证
- Lu et al. (2024):有监督的出生半径推断方法,作为 \(L_1\) 的验证基准
- Pasquato et al. (2023):天文学中因果发现的初步试探性研究
- Jin et al. (2025):星系-超大质量黑洞共演化的贝叶斯因果结构分析
- PC/FCI 算法 (Spirtes et al., 2001):经典因果发现方法,但难以处理潜变量场景
- 启发:该研究范式可推广到其他天体物理系统(如行星形成、星团演化),也为其他科学领域中从观测数据恢复隐藏物理量提供了方法论参考
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 新颖性 | 4 | 首次将 RLCD 应用于天体物理潜变量发现,跨学科创新明显 |
| 技术深度 | 3 | 核心算法源自已有工作,本文主要贡献在应用层面 |
| 实验充分性 | 3 | 仅用单一模拟验证,缺乏真实数据和更多 baseline 对比 |
| 写作质量 | 4 | 物理动机清晰,方法阐述流畅,图文配合得当 |
| 实用价值 | 4 | 为天文学因果推断开辟新方向,方法可推广性强 |
| 总分 | 3.6 | 跨学科应用新颖且有说服力,但实验规模和技术贡献有限 |
相关论文¶
- [ICML 2025] Latent Variable Causal Discovery under Selection Bias
- [NeurIPS 2025] Dynamic Causal Discovery in Alzheimer's Disease through Latent Pseudotime Modelling
- [ACL 2025] On the Reliability of Large Language Models for Causal Discovery
- [ICLR 2026] Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models
- [NeurIPS 2025] Differentiable Structure Learning and Causal Discovery for General Binary Data