Neurosymbolic Diffusion Models¶

一句话总结¶

本文提出神经符号扩散模型（NeSyDM），通过将离散掩码扩散模型与符号程序结合，突破了传统神经符号预测器中概念条件独立假设的限制，在保持可扩展性的同时建模概念间依赖关系和不确定性，在视觉推理和自动驾驶任务上取得了 SOTA 准确率和校准性能。

背景与动机¶

神经符号预测范式的核心问题：现有神经符号（NeSy）预测器通过神经网络提取符号概念，再利用符号程序推理输出标签。但训练只有输入-输出对，概念作为隐变量无标注，存在概念与真实语义不一致的"推理捷径"（Reasoning Shortcuts, RS）风险。
条件独立假设的根本缺陷：绝大多数 NeSy 预测器假设概念在给定输入下条件独立，即 \(p_\theta(\mathbf{c}|\mathbf{x}) = \prod_i p_\theta(c_i|\mathbf{x})\)。这一假设虽然使加权模型计数（WMC）高效，但理论上已被证明无法同时表达正确的不确定性并最大化似然。
推理捷径导致OOD泛化失败：当数据和程序允许多种概念赋值时，独立模型只能确定性地选择一种映射，无法对所有一致的概念方案分配概率，导致过度自信和分布外泛化能力差。
现有替代方案扩展性不足：混合模型和概率电路需要知识编译（最坏情况指数时间），难以扩展到高维问题；自回归模型的边际化不与条件分解交换，计算复杂度高。
掩码扩散模型的契合性：掩码扩散模型（MDM）在每个去噪步骤使用局部条件独立假设，但全局可以建模依赖关系。这与 NeSy 预测器的独立假设高度兼容，可直接复用现有 NeSy 的高效推理机制。
自动驾驶等真实场景需求：在 BDD-OIA 等自动驾驶任务中，模型需要从行车记录仪图像中提取高层概念（如行人、交通灯状态），并通过规则推理允许的驾驶动作，概念校准和不确定性量化对安全至关重要。

方法详解¶

核心框架：NeSyDM¶

NeSyDM 将掩码扩散模型（MDM）整合到 NeSy 预测器中，具体扩展包含三个方面：

条件化输入：去掩模型 \(p_\theta(\tilde{\mathbf{c}}^0 | \mathbf{c}^t, \mathbf{x})\) 以输入 \(\mathbf{x}\) 为条件
联合建模概念与输出：同时在概念 \(\mathbf{c}\) 和输出 \(\mathbf{y}\) 上定义扩散过程，概念为潜变量
符号程序反馈：通过程序 \(\varphi\) 将概念映射到输出，提供可微分梯度信号

前向过程¶

采用连续时间掩码扩散，前向过程逐步将数据 \(\mathbf{c}^0\) 掩码为 \(\mathbf{c}^t\)：

\[q(\mathbf{c}^t | \mathbf{c}^s) = \prod_{i=1}^C \frac{\alpha_t}{\alpha_s} \mathbb{1}[c_i^t = c_i^s] + (1 - \frac{\alpha_t}{\alpha_s})\mathbb{1}[c_i^t = \text{m}]\]

每个维度以概率 \(1 - \alpha_t/\alpha_s\) 被掩码，一旦掩码则保持掩码状态。

损失函数（NELBO）¶

NeSyDM 的损失由三部分组成：

概念去掩损失 \(\mathcal{L}_\mathbf{c}\)：与标准 MDM 类似，从变分分布采样 \(\mathbf{c}^0\)，部分掩码后要求模型重构
输出去掩损失 \(\mathcal{L}_\mathbf{y}\)：每个输出维度独立计算 WMC，利用概念去掩模型的条件独立性实现高效计算
变分熵 \(\mathcal{L}_{H[q]}\)：最大化变分分布的熵，鼓励覆盖所有与输入-输出一致的概念

变分后验与梯度估计¶

由于直接从约束后验采样是 NP-hard 的，采用松弛约束 \(r_\beta\) 近似采样：从 \(p_\theta\) 采样 \(K\) 次，选择违反最少约束的样本。梯度优化使用 REINFORCE Leave-One-Out（RLOO）估计器，将 WMC 问题分解为 \(Y\) 个独立子问题。

推理¶

使用多数投票策略：采样 \(L\) 个概念 \(\mathbf{c}_l^0\)，通过程序 \(\varphi\) 计算输出，取最频繁的输出作为预测。

实验结果¶

实验一：可扩展性（视觉路径规划）¶

方法	12×12 准确率	30×30 准确率
I-MLE（连续代价）	97.20±0.5	93.70±0.6
EXAL	94.19±1.74	80.85±3.83
A-NeSI	94.57±2.27	17.13±16.32
A-NeSI+RL	98.96±1.33	67.57±36.76
NeSyDM（本文）	99.41±0.06	97.40±1.23

在 30×30 网格（\(5^{900}\) 组合空间）上，NeSyDM 以 97.40% 准确率大幅超越所有基线。A-NeSI 因独立假设在高维问题上崩溃（仅 17.13%），而 NeSyDM 的方差极低（0.06 vs 1.33），展示了更高的可靠性。

实验二：推理捷径感知（RSBench）¶

方法	MNIST Half Acc_c(ID)↑	ECE_c(ID)↓	MNIST E-O ECE_c(ID)↓
PNP（独立）	42.76±0.14	69.40±0.35	81.04±1.15
SL（独立）	42.88±0.09	70.61±0.18	82.18±1.57
BEARS（集成）	43.26±0.75	36.81±0.17	28.82±2.19
NeSyDM（条件熵）	71.16±1.77	4.18±2.56	2.70±1.21

NeSyDM 在概念准确率和校准误差（ECE）上全面领先。条件熵变体的 ECE 仅为 4.18%，远低于独立模型的 69-70% 和 BEARS 的 36.81%，表明 NeSyDM 能有效感知推理捷径。在 BDD-OIA 自动驾驶任务上，NeSyDM 同时提升了输出预测性能和概念校准。

亮点¶

理论贡献扎实：证明了 MDM 的连续时间 NELBO 可扩展到非因子化分布，为 NeSy 之外的 MDM 架构也提供了理论基础
极强的可扩展性：在 30×30 路径规划（900 维离散空间）上实现 97.4% 准确率，比最佳基线高 27 个百分点
不确定性量化出色：ECE 校准误差从 70% 级别降至 4%，使模型可在主动学习等场景中可靠部署
架构优雅：复用现有 NeSy 预测器的神经网络仅需额外条件化当前掩码状态，实现成本低

局限性¶

变分熵估计为有偏近似：使用无条件或 1-step 近似而非精确变分熵，理论保证有限
推理速度较慢：多步扩散采样 + 多数投票策略需要多次网络前向传播，比独立模型推理慢数个数量级
损失权重超参数敏感：三个损失组件的权重 \(\gamma_\mathbf{c}, \gamma_\mathbf{y}, \gamma_H\) 对性能影响关键，消融实验表明不当设置会显著降低效果
RLOO 梯度估计在高维问题中仍有方差：当概率空间极大时，采样到一致概念的概率低，梯度信号可能不足

评分¶

维度	评分	说明
新颖性	⭐⭐⭐⭐	首次将离散扩散模型引入 NeSy 预测器，理论与方法均有创新
技术深度	⭐⭐⭐⭐⭐	严谨的连续时间 NELBO 推导、非因子化扩展定理、可扩展梯度估计
实验充分度	⭐⭐⭐⭐	涵盖合成与真实任务、多基线、10 seeds 统计检验，但缺少推理效率对比
实用价值	⭐⭐⭐	自动驾驶等安全关键场景有实际意义，但推理开销和超参敏感性限制了落地