Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking¶

会议: NeurIPS 2025
arXiv: 2505.18495
代码: 有（项目页面）
领域: 图像生成 / LLM
关键词: discrete diffusion, masked diffusion model, partial masking, intermediate states, text generation, image generation

一句话总结¶

提出 Prime（Partial masking scheme），突破 Masked Diffusion Model 的二元状态（mask/unmask）限制，引入中间态（部分观测的 token 信息），减少冗余计算并实现更细粒度的去噪过程，在文本生成上 PPL 15.36 超越自回归模型（17.54）和标准 MDM（21.52），在图像生成上取得 CIFAR-10 FID 3.26。

背景与动机¶

Masked Diffusion Models（MDM）是离散数据生成的强大方法——逐步 unmask tokens 生成样本。但存在一个关键效率问题：连续采样步之间 token 序列常常不变（大部分 token 保持 masked 或 unmasked 状态不变），模型重复处理相同输入，导致大量冗余计算。

根本原因：每个 token 只有两种状态——完全 masked 或完全 unmasked，没有中间过渡，去噪过程是"跳跃式"的。

核心问题¶

如何让 MDM 的 token 具有连续的中间状态（部分观测/部分 masked），使去噪过程更细粒度、减少冗余计算、提升生成质量？

方法详解¶

关键设计¶

部分掩码状态: 扩展 token 的状态空间——从 {masked, unmasked} 扩展为 [masked, partially_observed, ..., unmasked] 的连续/半连续谱。中间态通过在 masked 和 unmasked 嵌入之间插值实现。
变分训练目标: 推导了适用于部分掩码状态的变分下界（ELBO），作为生成模型的训练目标。保持了 MDM 的理论基础。
架构适配: 引入简单的架构修改使模型能处理中间态输入——token 的嵌入不再是离散查找表的输出，而是连续的插值向量。
细粒度去噪: 在采样时，token 可以从 fully masked → partially revealed → more revealed → unmasked 逐步过渡，使模型在每一步都有新信息可处理，消除了连续步骤间输入不变的冗余。

训练策略¶

标准 MDM 训练流程 + 部分掩码的噪声调度。训练目标是变分下界。

实验关键数据¶

任务	方法	指标
文本 (OpenWebText)	标准 MDM	PPL 21.52
文本 (OpenWebText)	自回归模型	PPL 17.54
文本 (OpenWebText)	AR+MDM 混合	PPL 17.58
文本 (OpenWebText)	Prime	PPL 15.36
图像 (CIFAR-10)	Prime	FID 3.26
图像 (ImageNet-32)	Prime	FID 6.98

首个非自回归方法在文本生成上超越自回归模型（PPL 15.36 vs 17.54）。

消融实验要点¶

部分掩码 vs 二元掩码：部分掩码显著提升生成质量
中间态的插值方式：线性插值 vs 可学习插值
采样步数与效率的权衡

亮点¶

打破了"离散扩散=二元状态"的范式限制
首次在文本生成上以非自回归方式超越自回归模型
理论基础扎实——变分训练目标有理论保证
跨模态通用——文本和图像上均有效

局限性 / 可改进方向¶

部分掩码的连续化使得原本离散的模型带有连续组件
在大规模数据（如 ImageNet-256）上的验证不足
与最新的 autoregressive+diffusion 混合方法（如 MAR）的对比
采样效率虽有改善但仍不如纯自回归模型的并行解码

与相关工作的对比¶

vs MDLM/SEDD（标准 MDM）: Prime 通过引入中间态将 PPL 从 21.52 降至 15.36，提升幅度巨大
vs GPT-2（自回归）: 首次以非 AR 方式超越 AR 模型（15.36 vs 17.54），里程碑式结果
vs ARGenSeg（同系列笔记）: ARGenSeg 用 next-scale prediction 做离散生成分割；Prime 用部分掩码改善离散扩散

启发与关联¶

部分掩码的思想可迁移到 VQ-VAE 的 token 生成——在 code index 空间引入"soft index"
中间态概念可用于改善 MAE 的预训练——不是完全掩码/不掩码，而是部分遮挡
非 AR 超越 AR 的结果对 LLM 社区有重要意义——是否意味着自回归不是最优范式？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 部分掩码突破二元状态限制，理论基础强
实验充分度: ⭐⭐⭐⭐ 文本+图像双模态，但大规模图像数据验证不足
写作质量: ⭐⭐⭐⭐ 概念清晰，理论推导完整
价值: ⭐⭐⭐⭐⭐ 首次非 AR 超越 AR 的文本生成结果，对生成模型社区意义重大