跳转至

DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking

日期: 2026-03-02
arXiv: 2603.01367
代码: https://giladturok.github.io/duel
领域: image_generation (discrete diffusion / language modeling)
关键词: masked diffusion models, exact likelihood, perplexity, deterministic unmasking, sampling strategies

一句话总结

DUEL 框架证明了使用确定性解码策略的掩码扩散模型(MDM)可以精确计算似然,首次为 MDM 提供了"真正的困惑度"指标,将 MDM 与自回归模型的困惑度差距缩小了最高 82%(零样本),并发现 Oracle 搜索下 MDM 可远超自回归基线(AG News 上 36.47 vs 52.11)。

研究背景与动机

掩码扩散模型(MDM)通过迭代选择位置解掩并预测 token 来生成文本,已经扩展到数十亿参数(LLaDA-8B、LLaDA2.0-100B、Mercury)并在语言基准测试上取得了强大结果。

核心矛盾在于:MDM 缺乏合理的似然评估方法。 1. ELBO 存在两个问题: (a) 变分间隙可能很大,系统性低估模型质量;(b) 即使界是紧的,ELBO 衡量的是训练分布 p_θ^πunif(均匀随机位置选择),而非测试时使用的确定性策略 p_θ^πF 2. 生成式困惑度: 依赖外部参考模型(如 GPT-2),继承参考模型偏差,且忽略样本多样性——重复同一句高质量文本也能获得好分数

关键洞察:许多最佳 MDM 采样器使用确定性解码策略(greedy confidence、probability margin、confidence threshold、KLASS),而确定性策略将似然计算从超指数级求和(>L! 项)坍缩为单一路径的乘积。

方法详解

整体框架

DUEL sampler 是一个二元组 (x_θ, F):预训练去噪网络 x_θ 和确定性解码规则 F。给定部分掩码序列 z,F(z) 返回唯一的待解掩位置集合。框架统一了多种现有采样策略:

解码规则 选择方式
Left-to-Right 选最小索引的 k 个掩码位置
Greedy Confidence 选预测置信度最高的 k 个
Probability Margin 选 top-2 预测概率差值最大的 k 个
Confidence Threshold 选所有 P_ℓ^(1) ≥ μ 的位置
KLASS 选同时满足置信度和 KL 稳定性的位置

关键设计

1. Any-Order Autoregressive (AO-ARM) 形式化 - MDM 生成分解为位置选择(解码策略 π)和 token 预测(去噪分布 p_θ) - 有序分区 σ = (σ_1, ..., σ_T) 描述解掩规则步序列,支持并行解掩(|σ_t| > 1 时 T < L) - 联合概率分解:p_θ(x, σ) = ∏t [π_θ(σ_t | x{σ<t}) · p_θ(x_{σ_t} | x_{σ<t})]

2. 确定性策略使似然可解 (Theorem 4.3) - 确定性规则 F 消除位置选择的随机性:π_θ^F(σ_t | x_{σ<t}) = 1 当且仅当 σ_t = F(x_{σ 0,所有其他排列概率为 0 - 精确对数似然公式: log p_θ^πF(x) = Σ_t Σ_{ℓ∈σ_t} log p_θ(x^(ℓ) | x_{σ<t}) - 计算过程与生成过程完全镜像——模拟解掩过程但揭示真实 token 而非采样

3. DUEL 作为"真正的困惑度" - ELBO 对解码策略不敏感(固定 x_θ 下所有 F 报告相同值),无法比较采样策略 - 生成式困惑度依赖有偏的参考模型 - DUEL 既对去噪器 x_θ 敏感又对策略 F 敏感,无需参考模型 - 首次实现:(a) MDM 与 AR 的公正困惑度对比;(b) 固定 x_θ 比较不同策略 F

损失函数 / 训练策略

DUEL 不改变训练。所有模型使用标准 MDM 训练: L_ELBO(θ) = E[w_t · Σ_{ℓ∈M(z_t)} -log P_ℓ[x^(ℓ)]] DUEL 仅改变评估方式,将 ELBO 的随机多次采样替换为确定性单路径精确计算。

实验关键数据

主实验

In-Domain 困惑度(OWT,ARM baseline: 17.54):

模型 ELBO DUEL Gap Closed
SEDD ≤24.10 22.58 23.2%
MDLM ≤22.98 21.86 20.6%
BD3-LM L'=4 ≤20.73 19.73 31.3%
BD3-LM L'=16 ≤22.27 20.76 31.9%

Zero-Shot Gap Closed:

数据集 SEDD MDLM BD3-LM
PTB 31.3% 34.3% 81.8%
Wikitext 40.8% 28.5% 31.4%
AG News 25.7% 27.8% 51.7%
平均 30.0% 29.9% 48.7%

8B 模型零样本困惑度:

模型 方法 Wikitext Lambada AG News
Llama3 Exact 7.94 32.40 41.29
LLaDA ELBO 15.29 39.04 85.17
LLaDA DUEL 14.50 36.00 78.91

消融实验

快速采样器比较(BD3-LM L'=16, OWT, DUEL 困惑度):

解码规则 128 NFE 256 NFE 512 NFE 1024 NFE
Left-to-Right 240.27 109.71 45.99 21.46
Greedy Conf. 164.94 66.64 34.74 22.03
Prob. Margin 140.38 57.48 32.24 22.05
Conf. Thresh. 226.97 116.83 43.48 22.05

Oracle 困惑度(AG News, BD3-LM L'=4):

模型 方法 困惑度
ARM Exact 52.11
BD3-LM ELBO 61.67
BD3-LM DUEL + Left-to-Right 54.94
BD3-LM DUEL + Prob. Margin 57.80
BD3-LM DUEL + Oracle 36.47

关键发现

  1. MDM 比之前认为的好得多——ELBO 系统性高估了与 AR 模型的差距
  2. Probability Margin 在低 NFE 预算下是最强的默认采样策略
  3. 生成式困惑度在低 NFE 下不可靠——Left-to-Right 获得最低生成式困惑度却有最差的 DUEL 困惑度(因为产生了低熵退化文本)
  4. Oracle 搜索表明 MDM 的天花板远未达到——最优排序可让 MDM 远超 AR 基线(36.47 vs 52.11)
  5. 解掩顺序是 MDM 独有的强大杠杆

亮点与洞察

  1. 优雅的理论结果: 确定性策略将不可解的 >L! 项求和坍缩为单一路径,证明简洁而深刻
  2. 重新评估认知: 之前 MDM 的"差距"部分归因于评估工具的系统性偏差,而非模型本身
  3. 实践指导: DUEL 为从业者提供了可靠的采样策略选择工具——在计算受限时优先选择 Probability Margin
  4. Oracle 结果的启示: 36.47 vs 52.11 的巨大差距说明 MDM 的灵活生成顺序是其相对 ARM 的根本优势,但目前的启发式策略远未充分利用
  5. 零代码修改: 仅改变评估方式就获得显著洞察,无需修改任何训练或模型代码

局限性 / 可改进方向

  1. 与 AR 困惑度类似,DUEL 忽略了生成时使用的 token 采样策略(如 nucleus、top-k)
  2. 计算成本:每个解掩步需要一次前向传播,匹配生成成本但超过 ELBO 的 1-128 次蒙特卡洛采样
  3. Oracle 搜索需要真实 token,无法直接用于生成——需要开发不依赖真值的近似 Oracle 策略
  4. 仅适用于确定性策略,不覆盖 remasking 范式(如允许迭代修正的策略)
  5. 下游基准测试仍然需要,因为困惑度无法捕捉所有能力维度

相关工作与启发

  • 理论基础: 建立在 AO-ARM 等价性 [Ou et al., 2024; Kim et al., 2025a] 之上,首次显式推导了有序分区下的精确似然
  • 与 I-MDCE 关系的区别 [Jeon et al., 2025]: 该工作假设连续时间+最优去噪器,DUEL 适用于离散时间+训练模型
  • 并行工作 [Chen et al., 2025a]: 独立推导相同精确似然用于 GRPO 强化学习训练 MDM
  • 启发的未来方向:
  • 扩展到 remasking 范式 [Wang et al., 2025a]
  • 基于精确概率的 GRPO 风格 RL 训练 [Shao et al., 2024]
  • 基于联合似然的 speculative decoding [Guo and Ermon, 2025]

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 理论贡献深刻——首次为 MDM 建立精确似然和真正的困惑度
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 in-domain/zero-shot/8B 规模/Oracle/快速采样比较,实验设计严谨
  • 写作质量: ⭐⭐⭐⭐⭐ 论文写作极其清晰,从动机到理论到实验层层推进,附录证明完整
  • 价值: ⭐⭐⭐⭐⭐ 改变了 MDM 领域的评估范式,所有同领域后续工作都应采用 DUEL 困惑度