跳转至

ItDPDM: Information-Theoretic Discrete Poisson Diffusion Model

会议: NeurIPS 2025 arXiv: 2505.05082 代码: 有(论文中提供链接) 领域: 图像生成 关键词: Discrete Diffusion, Poisson Process, Information Theory, Likelihood Estimation, Symbolic Music

一句话总结

提出 ItDPDM(信息论离散泊松扩散模型),通过泊松噪声信道和泊松重建损失(PRL)实现非负离散数据的精确似然估计,避免了 ELBO 近似和 dequantization,在合成数据及 CIFAR-10 和 MIDI 音乐上取得优于现有离散扩散模型的似然估计。

研究背景与动机

  1. 领域现状:扩散模型在连续域(图像)取得巨大成功,但处理本质离散数据(符号音乐、计数数据)时存在根本性局限:
  2. 连续模型需 dequantization 将离散数据映射到连续空间,引入量化间隙和训练-测试不匹配。
  3. 现有离散扩散模型(D3PM、LTJ)依赖变分下界(ELBO),非精确似然估计。
  4. 现有痛点
  5. 连续 DDPM 在双模、偏斜等离散分布上无法准确学习 PMF(如 NYC Taxi 分布中错失第二模态)。
  6. LTJ 使用二项稀疏(binomial thinning)和 ELBO 损失——ELBO 非精确似然,且需精心调节去噪步数 \(T\)
  7. ELBO 引入两层近似:(1) 变分界本身的松弛,(2) Monte Carlo 积分。
  8. 核心矛盾:离散数据建模需要直接操作概率质量函数(PMF),而非通过概率密度函数(PDF)间接处理。
  9. 本文要解决什么:为非负离散数据设计信息论上精确的扩散模型,消除 ELBO 近似。
  10. 切入角度:类比高斯信道上的 I-MMSE 恒等式(互信息导数=最小均方误差),建立泊松信道上的 I-MPRL 恒等式(互信息导数=最小泊松重建损失)。
  11. 核心 idea 一句话:I-MPRL identity 精确将泊松去噪损失与数据似然联系起来,\(-\log P(x) = \int_0^\infty \text{mprl}(x, \gamma) d\gamma\)

方法详解

整体框架

  • 泊松噪声信道:给定非负输入 \(x \geq 0\),输出 \(z_\gamma \sim \mathcal{P}(\gamma x)\),SNR 参数 \(\gamma\)
  • 前向过程:从清晰图像(\(\gamma \to \infty\))逐步退化到黑色图像(\(\gamma \to 0\),零光子),与高斯扩散的白噪声起点形成鲜明对比。
  • 反向过程:从黑色图像逐步恢复,通过 \(z_{\gamma_{t-1}} \sim \text{Poisson}(\gamma_{t-1} \hat{x}_0)\)

关键设计

1. 泊松重建损失(PRL)

  • 做什么:替代均方误差(MSE)作为去噪损失。
  • 核心公式: $\(l(x, \hat{x}) = x \log\frac{x}{\hat{x}} - x + \hat{x}\)$ 这是 Bregman 散度的一种形式,是泊松分布对数矩母函数的凸共轭。
  • 性质(Lemma 1):
  • 非负性:\(l(x, \hat{x}) \geq 0\),当且仅当 \(x = \hat{x}\) 时为零。
  • 凸性:对 \(\hat{x}\)\(x\) 都是凸的。
  • 低估惩罚:当 \(\hat{x} \to 0\)\(l \to \infty\),适合非负数据。
  • 最优估计器为条件期望 \(E[X|Z_\gamma]\)
  • 设计动机:MSE 假设连续输出,对离散 PMF 建模引入量化误差;PRL 直接对应 PMF 的质量函数。

2. I-MPRL 恒等式(核心理论)

  • 做什么:建立互信息与 MPRL 的微分关系。
  • 核心公式: $\(\frac{d}{d\gamma} I(x; z_\gamma) = \text{mprl}(\gamma)\)$ 积分得精确似然: $\(-\log P(x) = \int_0^\infty \text{mprl}(x, \gamma) d\gamma\)$
  • 对比高斯 I-MMSE\(\frac{d}{d\gamma} I(x; z_\gamma) = \frac{1}{2}\text{mmse}(\gamma)\)。ItDPDM 的泊松版本在结构上完全类似。
  • 意义:消除 ELBO 的第一层近似——PRL 损失与真实似然之间是精确(非变分)关系。

3. NLL 上界与重要性采样

  • NLL 上界: $\(E[-\log P(x)] = \int_0^\infty \text{mprl}(\gamma) d\gamma \leq \int_0^\infty \mathbb{E}[l(X, \hat{X})] d\gamma\)$ 上界的松弛仅来自去噪器 \(\hat{X}\) 的次优性(而非变分近似)。
  • log-SNR 参数化\(\alpha = \log \gamma\),积分变为 \(\int_{-\infty}^\infty e^\alpha \text{mprl}(\alpha) d\alpha\)
  • 尾部界:解析推导积分范围 \([\alpha_0, \alpha_1]\) 外的上界,确保截断误差可控。
  • 重要性采样:用 Logistic 分布采样 \(\alpha\),MC 估计误差 \(O(1/\sqrt{n})\)

4. 输入归一化

  • 泊松噪声是非加性的(\(z_\gamma \sim \mathcal{P}(\gamma x)\) 而非 \(z_\gamma = x + n\)),均值和方差随 \(\gamma\) 增长。
  • 归一化:\(\tilde{Z}_\gamma = Z_\gamma / (1 + \gamma)\),保证输入在 \([0, X]\) 范围内。

损失函数/训练策略

  • 训练损失:\(L = \sum_{i \in B} \text{PRL}(x_i, \hat{x}_i) / q(\alpha)\),其中 \(q(\alpha)\) 为重要性采样权重。
  • 去噪器:条件 MLP(合成数据)或 U-Net/ConvTransformer(真实数据)。
  • 采样:从 \(z_{\gamma_T} = \mathbf{0}\)(黑色图像)开始,逐步增大 SNR 采样。

实验关键数据

合成离散数据(Wasserstein-1 距离 ↓)

分布 DDPM LTJ ItDPDM
PoissMix 3.76 1.21 0.99
ZIP 2.31 0.69 0.56
NBinomMix 4.89 1.15 1.39
Zipf 1.51 0.73 0.48
Yule-Simon 0.32 0.17 0.14

ItDPDM 在 6 个离散分布中的 4 个取得最优 WD,尤其在 Zipf(重尾)和 PoissMix 上优势明显。

真实数据 NLL(↓ 越低越好)

CIFAR-10 子集

噪声+损失 DDPM backbone IDDPM backbone
Gaussian + MSE 0.44 0.48
Gaussian + PRL 0.27 0.32
Poisson + MSE 0.23 0.22
Poisson + PRL (ItDPDM) 0.18 0.17

Lakh MIDI(符号音乐):ItDPDM NLL = 4.61×10⁻⁵ vs Gaussian+MSE NLL = 0.51。

生成质量

方法 FID (dB↓) SSIM ↑ FAD ↓ Consistency ↑
DDPM 0 0.93 0.89 0.91
LTJ 0.30 0.90 0.66 0.92
D3PM 2.93 0.86 0.61 0.98
ItDPDM 0.18 0.91 0.64 0.94

交叉训练消融

设置 NLL (DDPM)
Gaussian + MSE 0.44
Gaussian + PRL 0.27
Poisson + MSE 0.23
Poisson + PRL 0.18

PRL 在高斯噪声下也优于 MSE(0.27 vs 0.44),说明 PRL 对离散数据有独立价值。

关键发现

  • I-MPRL identity 实现了精确(非变分)似然估计——消除 ELBO 的理论松弛。
  • PRL 训练收敛更快,在低 SNR 区域损失更低。
  • 泊松扩散在非泊松分布(Zipf、Yule-Simon)上也泛化良好,不限于泊松型数据。
  • MC 估计误差在 \(n > 1000\) 时约 \(10^{-2}\) 级别。

亮点与洞察

  • 精确似然:I-MPRL identity 建立了 PRL 损失与真实 NLL 的精确等式(非上界、非下界)——这是相对于所有 ELBO 方法的本质优势。
  • 处理非负整数的自然选择:泊松噪声是计数数据的自然扰动,避免了到连续空间的映射。
  • 信息论优雅性:泊松信道的 I-MPRL 与高斯信道的 I-MMSE 完美对偶。
  • PRL 的通用性:即使配合高斯噪声,PRL 也优于 MSE 用于离散数据。

局限性/可改进方向

  • 概念验证阶段:受限于训练计算,CIFAR-10 和 MIDI 上尚未达到 SOTA 生成质量(FID)。
  • 仅评估了无条件生成;条件生成和 OOD 泛化未探索。
  • Logistic 采样参数固定,未进行超参数搜索。
  • 大规模高分辨率数据集上的验证缺失。
  • 泊松噪声非加性且非源可分离,使反向去噪比高斯更复杂。

相关工作与启发

  • IT Gaussian Diffusion (Kong et al., 2023):用 I-MMSE 恒等式进行连续数据的 IT 似然估计。ItDPDM 是其离散泊松对偶。
  • LTJ (Chen & Zhou, 2023):二项稀疏 + ELBO 的离散扩散,不可逆且依赖变分近似。
  • D3PM (Austin et al., 2021):离散状态空间扩散模型,使用 masking/uniform 转移矩阵。
  • Blackout Diffusion / Beta Diffusion:不可逆先验,无可处理似然。
  • 启发:信息论工具(互信息、信道编码)为生成模型提供了强大的分析框架,有望推广到更多离散域。

评分

⭐⭐⭐⭐ (4/5)

理论贡献突出(I-MPRL identity 实现精确似然),方法与高斯扩散形成优雅对偶。合成实验验证充分。主要不足是实际数据上的生成质量和规模化验证有限——作者明确指出这是 proof-of-concept。未来用更大模型和更长训练有望大幅提升。