跳转至

How to Marginalize in Causal Structure Learning?

会议: AAAI 2026
arXiv: 2511.14001
代码: 无
领域: 因果推理 / 概率图模型 / 结构学习
关键词: 贝叶斯结构学习, 概率电路, 边际化, 有向无环图, 因果发现

一句话总结

本文利用可处理概率电路(Probabilistic Circuits)替代传统动态规划方法来执行贝叶斯结构学习中的边际化任务,通过一种新颖的两阶段训练策略(先学习完整父集分数再渐进式微调边际查询),消除了候选父节点集数量的人为限制,从而在 TRUST 框架上取得了更好的后验分布估计效果。

研究背景与动机

贝叶斯网络(Bayesian Networks)是一类重要的概率图模型,广泛应用于医疗建模、工业故障诊断等领域。其核心挑战在于结构学习——从观测数据中推断出变量之间的有向无环图(DAG)结构。由于 DAG 的数量随变量数超指数增长,贝叶斯结构学习方法通过推断后验分布 \(p(G|D)\) 来处理这一不确定性。

在贝叶斯结构学习中,一个基本子任务是对贝叶斯评分函数 \(\mathcal{B}\) 在所有可能的父节点集上进行边际化。现有的方法依赖于动态规划,其时间复杂度为 \(O(3^N)\),在 \(N > 16\) 时变得不可行。因此,现有方法不得不人为限制候选父节点集的大小(比如限制为8个候选),这直接削弱了搜索空间的覆盖率,导致学习到的后验分布不够准确。

核心矛盾在于:精确边际化需要指数级计算,而限制候选集会损失信息。本文的切入角度是:利用概率电路的分解性和光滑性天然支持精确边际化的优势,将概率电路作为贝叶斯评分函数的替代模型。训练好的概率电路可以在线性时间内回答任意边际查询,从而绕开 \(O(3^N)\) 计算瓶颈,同时保留对所有父节点集的支持。

方法详解

整体框架

本文的方法对贝叶斯网络中的每个变量 \(X_i\) 独立学习一个概率电路,用于近似该变量的贝叶斯评分函数 \(\mathcal{B}_{X_i}(\mathbf{S})\)。训练完成后,结构学习器不再调用动态规划,而是直接用概率电路回答边际查询。方法核心分为三个部分:概率电路结构设计、两阶段学习算法、以及与 TRUST 框架的集成。

关键设计

  1. 概率电路(PC)结构设计:

    • 功能:构建一个可分解、光滑的概率电路来表示非归一化概率分布
    • 核心思路:采用类似 RAT-SPN 的架构,用隐变量维度 \(N\) 和变量数 \(M\) 参数化。叶节点为非归一化的 Bernoulli 分布,中间交替堆叠乘积层和求和层。乘积层将作用域翻倍(矩阵行数减半),保证可分解性\(sc(C_1) \cap sc(C_2) = \emptyset\))。求和层在同行节点间做加权求和,保证光滑性\(sc(C_1) = sc(C_2)\)
    • 设计动机:分解性 + 光滑性保证了边际化可以在电路大小线性时间内精确完成。与传统 PC 不同,本文不强制求和节点权重归一化(\(\sum w_i \neq 1\)),因为贝叶斯评分本身就是非归一化的
  2. 两阶段学习算法:

    • 功能:通过渐进式训练让概率电路学会近似贝叶斯评分函数及其边际分布
    • 核心思路:
      • 第一阶段(基线学习):从 \(\mathbf{S}\) 中随机采样完整父集向量,用贝叶斯评分 \(\mathcal{B}\) 打分作为标签,MSE 损失训练。采样时按权重 \(\propto 2^{M-T}\) 偏向 1 较少的向量,因为它们对更多边际质量有贡献
      • 第二阶段(边际微调):迭代地增加边际化变量数 \(k\),每次同时训练 \((k,0)\)\((k,1)\) 边际查询与新采样的完整父集。边际标签由受限候选集上的精确 DP 方法生成
    • 设计动机:渐进式训练利用了递推关系 \(g(A_i, A'_i) = g(A_i \cup b, A'_i) + g(A_i, A'_i \cup b)\),即 \((k+1, 0)\) 查询可分解为 \((k, 0)\)\((k, 1)\) 查询之和,从而在学好 \(k\) 阶边际后自然地泛化到 \(k+1\)
  3. 关键训练细节:

    • 功能:确保训练稳定性和收敛质量
    • 核心思路:第一阶段使用较高学习率 \(10^{-1}\) 缓解梯度消失;参数初始化为 \(m \cdot \log(U(0,1))\),其中 \(m \approx -10\),用于打破梯度对称性;第二阶段学习率降到 \(5 \times 10^{-3}\),限制迭代次数 \(L\) 防止遗忘
    • 设计动机:非归一化权重在对数域可能取到极大负值导致梯度消失,高学习率和特殊初始化是对此的针对性处理

损失函数 / 训练策略

损失函数采用对数域 MSE:\((\log p(\mathbf{S}) - \mathcal{B}(\mathbf{S}))^2\)。选择 MSE 而非 KL 散度是因为经验上表现更好,且与类似的边际学习模型保持一致。训练中,第一阶段使用 10000 个样本,第二阶段每次迭代使用 20000 个样本(边际与完整分数各半),20 个 epoch/迭代。

实验关键数据

主实验

实验在 TRUST 框架下进行,使用合成数据(Erdős-Rényi 图,平均 2 条边/节点,线性高斯机制,BGe 评分),比较概率电路方法(PC)与动态规划方法(DP)。

设置 方法 AUROC MLL MSE-CE E-SHD
\(d=16\), 无限候选 DP (精确) 基线 基线 基线 基线
\(d=16\), 无限候选 PC (本文) ≈DP ≈DP ≈DP 略差
\(d=20\), 候选集=8 DP (受限) 基线 基线 基线 基线
\(d=20\), 候选集=8 PC (本文) 优于DP 优于DP 优于DP 略差

消融实验

配置 关键表现 说明
\(d=16\), PC vs 精确DP 4项中3项持平 验证PC能很好近似精确边际
\(d=20\), PC vs 受限DP 4项中3项显著优于 消除候选集限制带来的收益
隐变量大小 \(N=256\) vs \(N=64\) 256用于16维, 64用于20维 维度越高PC可以更紧凑
无第二阶段微调 仅第一阶段 边际回答精度显著下降

关键发现

  • PC 方法在候选集不受限时可以近似精确边际化,对下游结构学习影响很小
  • 当限制 DP 的候选集(实际应用中的标准做法)后,PC 方法在 AUROC、MLL、MSE-CE 三个指标上均显著优于 DP
  • PC 方法倾向于采样边更多的图结构,导致 E-SHD 偏高,但 AUROC 表明其后验分布仍能正确识别边的概率
  • 两阶段训练中渐进式增加边际化变量数 \(k\) 对学习效果至关重要

亮点与洞察

  • 概率电路天然的可处理性(精确边际化 + 线性时间)与结构学习的边际化需求完美契合,这是一个非常自然的方法论选择
  • 两阶段渐进训练利用了边际查询的递推结构,让困难的高阶边际学习建立在已知的低阶边际之上,既优雅又实用
  • 将整个 TRUST 结构学习器都基于概率电路实现(后验分布 + 评分边际化),展示了概率电路作为统一框架的潜力
  • 通过近似而非精确的方式绕开指数级瓶颈,核心技巧在于学习的逼近模型本身就支持精确推理

局限与展望

  • 目前仅在 TRUST 框架和线性高斯贝叶斯网络上验证,需要扩展到离散 BN(如 BDeu 评分)和其他结构学习方法(如 ArCO-GP)
  • 实验维度最高为 \(d=20\),更大规模的扩展性仍需验证
  • E-SHD 指标上表现不如 DP 方法,说明 PC 学习的分布在边密度方面存在系统性偏差
  • 仅使用合成数据实验,缺乏真实数据集的验证
  • 第二阶段训练中的迭代次数 \(L\) 存在"遗忘效应",过多迭代反而降低效果,这一权衡需要更好的理论理解

相关工作与启发

  • 与 MAMs、NADEs、AO-ARMs 等模型不同,概率电路提供的是精确边际推理而非近似,这在结构学习中至关重要
  • 本文方法可以被视为"先近似整体分布,再精确推理"的范式,与用神经网络做变分推断后进行采样的思路有异曲同工之处
  • 对因果发现领域的启发:计算瓶颈可以通过学习可处理的替代模型来解决,而不必强制限制搜索空间

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文