跳转至

Dynamic Causal Discovery in Alzheimer's Disease through Latent Pseudotime Modelling

会议: NEURIPS2025
arXiv: 2511.04619
代码: 待确认
领域: causal_inference / medical_imaging
关键词: 因果发现, 阿尔茨海默病, 贝叶斯网络, 伪时间, 时变因果图, 生物标志物

一句话总结

将 BN-LTE(贝叶斯网络+潜在时间嵌入)应用于 ADNI 真实 AD 数据,推断随疾病伪时间演变的动态因果图,伪时间预测诊断 AUC 0.82 远超年龄 0.59,并揭示了新型生物标志物 NfL/GFAP 与传统 AD 标志物之间的动态因果关系。

研究背景与动机

  1. 领域现状:阿尔茨海默病(AD)研究每年投入约 3800 亿美元,但临床试验持续失败,根本原因在于疾病涉及的数千条通路之间的因果关系仍不清楚。因果推断为理解这些关系提供了强大框架。
  2. 现有痛点
  3. 大多数因果发现方法假设静态因果图,但 AD 的病理生理过程是动态演变的——不同疾病阶段的因果关系不同;
  4. 基本假设(无环图、无未观测混杂)在医学数据中经常被违反或不可检验;
  5. 患者的疾病进展速率因"认知储备"等潜在因素而异,年龄不等于疾病阶段;
  6. 新兴血浆标志物 NfL 和 GFAP 与传统 AD 标志物(Aβ、pTau)的因果关系尚不清楚。
  7. 核心矛盾:疾病进展速率的个体差异使得时间序列分析困难——年龄相同的患者可能处于完全不同的疾病阶段。横截面数据无法直接捕捉疾病动态。
  8. 本文要解决什么?
  9. 推断一个数据驱动的"伪时间"来排列患者的疾病进展阶段
  10. 学习因果关系如何随伪时间演变
  11. 整合新型和传统生物标志物的动态因果交互
  12. 切入角度:利用 BN-LTE 模型(Zhou et al. 2023),将伪时间作为调制因果机制的潜变量,从横截面 ADNI 数据中推断动态因果图。
  13. 核心 idea 一句话:用潜在伪时间排序患者并学习随进展演变的因果图,揭示 AD 标志物间的动态因果关系。

方法详解

整体框架

  • 输入:ADNI 横截面数据,380 名患者(48 AD, 117 MCI, 215 CN),16 个变量(人口学、脑区体积、血浆标志物、认知评分)
  • 模型:BN-LTE(贝叶斯网络+潜在时间嵌入),用 MCMC 采样后验
  • 输出:(1) 每个患者的疾病伪时间 \(Z\);(2) 随 \(Z\) 变化的因果图 \(G(Z)\)

关键设计

  1. 伪时间模型
  2. 做什么:用数据驱动的潜变量 \(Z\) 替代年龄来排列患者
  3. 核心思路:每个变量的条件分布建模为 \(X_j = a_j(Z) + \sum_l b_{jl}(Z) X_l + \epsilon_j\),其中 \(a_j(Z)\) 是基线轨迹函数(标志物随伪时间的自然进展),\(b_{jl}(Z)\) 是伪时间依赖的因果效应系数,两者用三次 B-spline 参数化
  4. 设计动机:年龄 ≠ 疾病阶段——"认知储备"等因素导致同龄人疾病进展差异很大。伪时间 \(Z\) 的可辨识性在因果关系沿该轴变化的条件下由理论保证

  5. 背景知识约束

  6. 做什么:引入最小化的、与疾病无关的先验知识
  7. 核心思路:(1) 根节点(root nodes):不可变变量(性别、APOE 基因型)不能有入边;(2) 宿节点(sink nodes):认知评分不能有出边(在老年 ADNI 人群中,认知对其他变量的反向影响可忽略)
  8. 设计动机:在模型假设被违反的真实数据中,disease-agnostic 的背景知识大幅提升图恢复质量(Table 2:方向精确度从 62% 升至 96%),同时避免引入关于疾病机制的主观偏见

  9. MCMC 后验推断

  10. 做什么:估计伪时间和因果图的后验分布
  11. 核心思路:4 条链 × 5000 次迭代(1000 burn-in),用边包含概率(PIP)作为因果关系的置信度,阈值 PIP ≥ 0.5 构建最终因果图
  12. 设计动机:贝叶斯方法自然提供不确定性量化,PIP 避免了硬性的有/无边判断

损失函数 / 训练策略

  • 高斯似然模型:\(\epsilon_j \sim N(0, \sigma_j^2)\)
  • Cubic B-spline 参数化(5 个结点)
  • 去除了原 BN-LTE 中的 Coulomb 先验(因为 AD 患者在疾病阶段上非均匀分布)

实验关键数据

主实验——伪时间 vs 年龄的诊断预测力

预测变量 AUC p 值 说明
伪时间 \(Z\) 0.82 (95% CI: 0.81, 0.82) <0.001 强预测力
年龄 0.59 <0.01 弱预测力

消融实验——背景知识对图恢复的影响

配置 边存在精确度 边存在召回率 方向精确度 方向召回率 SHD
无背景知识 0.80 0.16 0.62 0.50 67
+根节点约束 0.72 0.35 0.89 0.84 53
+根节点+宿节点 0.88 0.45 0.96 0.88 41

关键因果发现

因果边 PIP (有背景知识) 文献一致性
pTau217 → GFAP 0.80 可能/未知
Aβ42 → Aβ40 0.75 已确认
pTau217 → NfL 0.57 可能
NfL → Hippocampus 0.53 可能
Aβ42 → NfL 0.46 可能

关键发现

  • 伪时间排序与疾病严重度一致:Figure 1 显示 CN 患者聚集在早期伪时间,MCI 在中间,AD 在晚期,且海马体积下降、NfL 和 GFAP 升高的生物标志物轨迹符合已知 AD 病理。
  • 因果关系动态变化:pTau 对 NfL 的影响在伪时间早期即出现(与 pTau 效应先于神经退行性变的共识一致),而年龄对 GFAP 的影响在整个病程中保持恒定。
  • 背景知识效果显著:仅约束"性别/APOE 不受其他变量影响"和"认知评分不影响其他变量"这两条 disease-agnostic 知识,方向恢复精确度从 62% 跃升至 96%。
  • 也发现了不一致:pTau → GFAP 和 NfL → Aβ40 与文献不符(文献认为淀粉样变先于 tau 病变),说明模型和数据仍有局限。

亮点与洞察

  • "伪时间"概念从单细胞生物学到临床疾病建模的迁移:伪时间常用于单细胞 RNA-seq 的细胞轨迹推断,本文将其迁移到患者级别的疾病进展建模,优雅地解决了横截面数据无法直接建模动态的问题。
  • Disease-agnostic 背景知识的"四两拨千斤"效果:不需要关于 AD 机制的专家知识,仅用"不可变变量是根节点"和"认知评分是宿节点"就能将方向精确度从 62% 提升至 96%,这对因果发现的实际应用有重要启示。
  • 动态因果图的临床价值:因果关系随疾病阶段变化意味着联合疗法的时序安排可能需要根据患者的疾病阶段定制——这一洞察对临床试验设计有直接意义。
  • 新型标志物的因果定位:首次在因果框架下分析 NfL 和 GFAP 与传统 AD 标志物的动态交互,如 pTau→NfL 在早期出现,为这些新兴标志物的临床解读提供了因果依据。

局限性 / 可改进方向

  • 假设较强:假设因果充分性(无未观测混杂)和忠实性,在医学数据中很可能被违反。
  • 样本量有限:380 人,部分亚组(如 AD 仅 48 人)统计效力不足。
  • 单维伪时间:用一维标量压缩疾病进展,真实 AD 异质性可能需要多维表示。
  • 共识图作为 ground truth:文献构建的共识图本身可能不完整或有争议,部分边关系未知。
  • 未利用纵向数据:ADNI 有纵向随访数据但未使用,纵向分析可验证伪时间模型的预测。
  • 改进方向
  • 放松因果充分性假设,建模未观测混杂(如 FCI 方法)
  • 扩展到多维伪时间(多种潜在进展因子)
  • 跨队列验证(多数据集因果发现)
  • 利用纵向数据验证动态因果关系

相关工作与启发

  • vs 静态因果图方法:传统 PC/GES 等方法输出一个固定图,无法捕捉疾病进展中因果关系的变化。BN-LTE 的动态图是质的提升。
  • vs Zhou et al. (2023):本文是 BN-LTE 在 AD 真实数据上的首次应用,贡献在于发现 disease-agnostic 背景知识的巨大价值,以及 NfL/GFAP 的因果分析。
  • vs 时间序列因果发现:Granger 因果等方法需要纵向数据,本文从横截面数据推断动态关系,适用于更广泛的临床场景。

评分

  • 新颖性: ⭐⭐⭐⭐ 伪时间+动态因果发现在 AD 中的首次系统性应用,disease-agnostic 背景知识策略有方法论价值
  • 实验充分度: ⭐⭐⭐⭐ 多个设置的消融、与共识图的定量对比、MCMC 收敛验证
  • 写作质量: ⭐⭐⭐⭐ 临床动机和方法论描述清晰,发现与不一致之处都坦诚讨论
  • 价值: ⭐⭐⭐⭐⭐ 对 AD 研究和因果发现方法论都有实质性贡献,临床可转化潜力大