How to Marginalize in Causal Structure Learning?¶

会议: AAAI 2026
arXiv: 2511.14001
代码: 无
领域: 因果推理 / 概率图模型 / 结构学习
关键词: 贝叶斯结构学习, 概率电路, 边际化, 有向无环图, 因果发现

一句话总结¶

本文利用可处理概率电路（Probabilistic Circuits）替代传统动态规划方法来执行贝叶斯结构学习中的边际化任务，通过一种新颖的两阶段训练策略（先学习完整父集分数再渐进式微调边际查询），消除了候选父节点集数量的人为限制，从而在 TRUST 框架上取得了更好的后验分布估计效果。

研究背景与动机¶

贝叶斯网络（Bayesian Networks）是一类重要的概率图模型，广泛应用于医疗建模、工业故障诊断等领域。其核心挑战在于结构学习——从观测数据中推断出变量之间的有向无环图（DAG）结构。由于 DAG 的数量随变量数超指数增长，贝叶斯结构学习方法通过推断后验分布 \(p(G|D)\) 来处理这一不确定性。

在贝叶斯结构学习中，一个基本子任务是对贝叶斯评分函数 \(\mathcal{B}\) 在所有可能的父节点集上进行边际化。现有的方法依赖于动态规划，其时间复杂度为 \(O(3^N)\)，在 \(N > 16\) 时变得不可行。因此，现有方法不得不人为限制候选父节点集的大小（比如限制为8个候选），这直接削弱了搜索空间的覆盖率，导致学习到的后验分布不够准确。

核心矛盾在于：精确边际化需要指数级计算，而限制候选集会损失信息。本文的切入角度是：利用概率电路的分解性和光滑性天然支持精确边际化的优势，将概率电路作为贝叶斯评分函数的替代模型。训练好的概率电路可以在线性时间内回答任意边际查询，从而绕开 \(O(3^N)\) 计算瓶颈，同时保留对所有父节点集的支持。

方法详解¶

整体框架¶

本文的方法对贝叶斯网络中的每个变量 \(X_i\) 独立学习一个概率电路，用于近似该变量的贝叶斯评分函数 \(\mathcal{B}_{X_i}(\mathbf{S})\)。训练完成后，结构学习器不再调用动态规划，而是直接用概率电路回答边际查询。方法核心分为三个部分：概率电路结构设计、两阶段学习算法、以及与 TRUST 框架的集成。

关键设计¶

概率电路（PC）结构设计:
- 功能：构建一个可分解、光滑的概率电路来表示非归一化概率分布
- 核心思路：采用类似 RAT-SPN 的架构，用隐变量维度 \(N\) 和变量数 \(M\) 参数化。叶节点为非归一化的 Bernoulli 分布，中间交替堆叠乘积层和求和层。乘积层将作用域翻倍（矩阵行数减半），保证可分解性（\(sc(C_1) \cap sc(C_2) = \emptyset\)）。求和层在同行节点间做加权求和，保证光滑性（\(sc(C_1) = sc(C_2)\)）
- 设计动机：分解性 + 光滑性保证了边际化可以在电路大小线性时间内精确完成。与传统 PC 不同，本文不强制求和节点权重归一化（\(\sum w_i \neq 1\)），因为贝叶斯评分本身就是非归一化的
两阶段学习算法:
- 功能：通过渐进式训练让概率电路学会近似贝叶斯评分函数及其边际分布
- 核心思路：
  - 第一阶段（基线学习）：从 \(\mathbf{S}\) 中随机采样完整父集向量，用贝叶斯评分 \(\mathcal{B}\) 打分作为标签，MSE 损失训练。采样时按权重 \(\propto 2^{M-T}\) 偏向 1 较少的向量，因为它们对更多边际质量有贡献
  - 第二阶段（边际微调）：迭代地增加边际化变量数 \(k\)，每次同时训练 \((k,0)\) 和 \((k,1)\) 边际查询与新采样的完整父集。边际标签由受限候选集上的精确 DP 方法生成
- 设计动机：渐进式训练利用了递推关系 \(g(A_i, A'_i) = g(A_i \cup b, A'_i) + g(A_i, A'_i \cup b)\)，即 \((k+1, 0)\) 查询可分解为 \((k, 0)\) 和 \((k, 1)\) 查询之和，从而在学好 \(k\) 阶边际后自然地泛化到 \(k+1\) 阶
关键训练细节:
- 功能：确保训练稳定性和收敛质量
- 核心思路：第一阶段使用较高学习率 \(10^{-1}\) 缓解梯度消失；参数初始化为 \(m \cdot \log(U(0,1))\)，其中 \(m \approx -10\)，用于打破梯度对称性；第二阶段学习率降到 \(5 \times 10^{-3}\)，限制迭代次数 \(L\) 防止遗忘
- 设计动机：非归一化权重在对数域可能取到极大负值导致梯度消失，高学习率和特殊初始化是对此的针对性处理

损失函数 / 训练策略¶

损失函数采用对数域 MSE：\((\log p(\mathbf{S}) - \mathcal{B}(\mathbf{S}))^2\)。选择 MSE 而非 KL 散度是因为经验上表现更好，且与类似的边际学习模型保持一致。训练中，第一阶段使用 10000 个样本，第二阶段每次迭代使用 20000 个样本（边际与完整分数各半），20 个 epoch/迭代。

实验关键数据¶

主实验¶

实验在 TRUST 框架下进行，使用合成数据（Erdős-Rényi 图，平均 2 条边/节点，线性高斯机制，BGe 评分），比较概率电路方法（PC）与动态规划方法（DP）。

设置	方法	AUROC	MLL	MSE-CE	E-SHD
\(d=16\), 无限候选	DP (精确)	基线	基线	基线	基线
\(d=16\), 无限候选	PC (本文)	≈DP	≈DP	≈DP	略差
\(d=20\), 候选集=8	DP (受限)	基线	基线	基线	基线
\(d=20\), 候选集=8	PC (本文)	优于DP	优于DP	优于DP	略差

消融实验¶

配置	关键表现	说明
\(d=16\), PC vs 精确DP	4项中3项持平	验证PC能很好近似精确边际
\(d=20\), PC vs 受限DP	4项中3项显著优于	消除候选集限制带来的收益
隐变量大小 \(N=256\) vs \(N=64\)	256用于16维, 64用于20维	维度越高PC可以更紧凑
无第二阶段微调	仅第一阶段	边际回答精度显著下降

关键发现¶

PC 方法在候选集不受限时可以近似精确边际化，对下游结构学习影响很小
当限制 DP 的候选集（实际应用中的标准做法）后，PC 方法在 AUROC、MLL、MSE-CE 三个指标上均显著优于 DP
PC 方法倾向于采样边更多的图结构，导致 E-SHD 偏高，但 AUROC 表明其后验分布仍能正确识别边的概率
两阶段训练中渐进式增加边际化变量数 \(k\) 对学习效果至关重要

亮点与洞察¶

概率电路天然的可处理性（精确边际化 + 线性时间）与结构学习的边际化需求完美契合，这是一个非常自然的方法论选择
两阶段渐进训练利用了边际查询的递推结构，让困难的高阶边际学习建立在已知的低阶边际之上，既优雅又实用
将整个 TRUST 结构学习器都基于概率电路实现（后验分布 + 评分边际化），展示了概率电路作为统一框架的潜力
通过近似而非精确的方式绕开指数级瓶颈，核心技巧在于学习的逼近模型本身就支持精确推理

局限与展望¶

目前仅在 TRUST 框架和线性高斯贝叶斯网络上验证，需要扩展到离散 BN（如 BDeu 评分）和其他结构学习方法（如 ArCO-GP）
实验维度最高为 \(d=20\)，更大规模的扩展性仍需验证
E-SHD 指标上表现不如 DP 方法，说明 PC 学习的分布在边密度方面存在系统性偏差
仅使用合成数据实验，缺乏真实数据集的验证
第二阶段训练中的迭代次数 \(L\) 存在"遗忘效应"，过多迭代反而降低效果，这一权衡需要更好的理论理解

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐