DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking¶
日期: 2026-03-02
arXiv: 2603.01367
代码: https://giladturok.github.io/duel
领域: image_generation (discrete diffusion / language modeling)
关键词: masked diffusion models, exact likelihood, perplexity, deterministic unmasking, sampling strategies
一句话总结¶
DUEL 框架证明了使用确定性解码策略的掩码扩散模型(MDM)可以精确计算似然,首次为 MDM 提供了"真正的困惑度"指标,将 MDM 与自回归模型的困惑度差距缩小了最高 82%(零样本),并发现 Oracle 搜索下 MDM 可远超自回归基线(AG News 上 36.47 vs 52.11)。
研究背景与动机¶
掩码扩散模型(MDM)通过迭代选择位置解掩并预测 token 来生成文本,已经扩展到数十亿参数(LLaDA-8B、LLaDA2.0-100B、Mercury)并在语言基准测试上取得了强大结果。
核心矛盾在于:MDM 缺乏合理的似然评估方法。 1. ELBO 存在两个问题: (a) 变分间隙可能很大,系统性低估模型质量;(b) 即使界是紧的,ELBO 衡量的是训练分布 p_θ^πunif(均匀随机位置选择),而非测试时使用的确定性策略 p_θ^πF 2. 生成式困惑度: 依赖外部参考模型(如 GPT-2),继承参考模型偏差,且忽略样本多样性——重复同一句高质量文本也能获得好分数
关键洞察:许多最佳 MDM 采样器使用确定性解码策略(greedy confidence、probability margin、confidence threshold、KLASS),而确定性策略将似然计算从超指数级求和(>L! 项)坍缩为单一路径的乘积。
方法详解¶
整体框架¶
DUEL sampler 是一个二元组 (x_θ, F):预训练去噪网络 x_θ 和确定性解码规则 F。给定部分掩码序列 z,F(z) 返回唯一的待解掩位置集合。框架统一了多种现有采样策略:
| 解码规则 | 选择方式 |
|---|---|
| Left-to-Right | 选最小索引的 k 个掩码位置 |
| Greedy Confidence | 选预测置信度最高的 k 个 |
| Probability Margin | 选 top-2 预测概率差值最大的 k 个 |
| Confidence Threshold | 选所有 P_ℓ^(1) ≥ μ 的位置 |
| KLASS | 选同时满足置信度和 KL 稳定性的位置 |
关键设计¶
1. Any-Order Autoregressive (AO-ARM) 形式化 - MDM 生成分解为位置选择(解码策略 π)和 token 预测(去噪分布 p_θ) - 有序分区 σ = (σ_1, ..., σ_T) 描述解掩规则步序列,支持并行解掩(|σ_t| > 1 时 T < L) - 联合概率分解:p_θ(x, σ) = ∏t [π_θ(σ_t | x{σ<t}) · p_θ(x_{σ_t} | x_{σ<t})]
2. 确定性策略使似然可解 (Theorem 4.3)
- 确定性规则 F 消除位置选择的随机性:π_θ^F(σ_t | x_{σ<t}) = 1 当且仅当 σ_t = F(x_{σ
3. DUEL 作为"真正的困惑度" - ELBO 对解码策略不敏感(固定 x_θ 下所有 F 报告相同值),无法比较采样策略 - 生成式困惑度依赖有偏的参考模型 - DUEL 既对去噪器 x_θ 敏感又对策略 F 敏感,无需参考模型 - 首次实现:(a) MDM 与 AR 的公正困惑度对比;(b) 固定 x_θ 比较不同策略 F
损失函数 / 训练策略¶
DUEL 不改变训练。所有模型使用标准 MDM 训练: L_ELBO(θ) = E[w_t · Σ_{ℓ∈M(z_t)} -log P_ℓ[x^(ℓ)]] DUEL 仅改变评估方式,将 ELBO 的随机多次采样替换为确定性单路径精确计算。
实验关键数据¶
主实验¶
In-Domain 困惑度(OWT,ARM baseline: 17.54):
| 模型 | ELBO | DUEL | Gap Closed |
|---|---|---|---|
| SEDD | ≤24.10 | 22.58 | 23.2% |
| MDLM | ≤22.98 | 21.86 | 20.6% |
| BD3-LM L'=4 | ≤20.73 | 19.73 | 31.3% |
| BD3-LM L'=16 | ≤22.27 | 20.76 | 31.9% |
Zero-Shot Gap Closed:
| 数据集 | SEDD | MDLM | BD3-LM |
|---|---|---|---|
| PTB | 31.3% | 34.3% | 81.8% |
| Wikitext | 40.8% | 28.5% | 31.4% |
| AG News | 25.7% | 27.8% | 51.7% |
| 平均 | 30.0% | 29.9% | 48.7% |
8B 模型零样本困惑度:
| 模型 | 方法 | Wikitext | Lambada | AG News |
|---|---|---|---|---|
| Llama3 | Exact | 7.94 | 32.40 | 41.29 |
| LLaDA | ELBO | 15.29 | 39.04 | 85.17 |
| LLaDA | DUEL | 14.50 | 36.00 | 78.91 |
消融实验¶
快速采样器比较(BD3-LM L'=16, OWT, DUEL 困惑度):
| 解码规则 | 128 NFE | 256 NFE | 512 NFE | 1024 NFE |
|---|---|---|---|---|
| Left-to-Right | 240.27 | 109.71 | 45.99 | 21.46 |
| Greedy Conf. | 164.94 | 66.64 | 34.74 | 22.03 |
| Prob. Margin | 140.38 | 57.48 | 32.24 | 22.05 |
| Conf. Thresh. | 226.97 | 116.83 | 43.48 | 22.05 |
Oracle 困惑度(AG News, BD3-LM L'=4):
| 模型 | 方法 | 困惑度 |
|---|---|---|
| ARM | Exact | 52.11 |
| BD3-LM | ELBO | 61.67 |
| BD3-LM | DUEL + Left-to-Right | 54.94 |
| BD3-LM | DUEL + Prob. Margin | 57.80 |
| BD3-LM | DUEL + Oracle | 36.47 |
关键发现¶
- MDM 比之前认为的好得多——ELBO 系统性高估了与 AR 模型的差距
- Probability Margin 在低 NFE 预算下是最强的默认采样策略
- 生成式困惑度在低 NFE 下不可靠——Left-to-Right 获得最低生成式困惑度却有最差的 DUEL 困惑度(因为产生了低熵退化文本)
- Oracle 搜索表明 MDM 的天花板远未达到——最优排序可让 MDM 远超 AR 基线(36.47 vs 52.11)
- 解掩顺序是 MDM 独有的强大杠杆
亮点与洞察¶
- 优雅的理论结果: 确定性策略将不可解的 >L! 项求和坍缩为单一路径,证明简洁而深刻
- 重新评估认知: 之前 MDM 的"差距"部分归因于评估工具的系统性偏差,而非模型本身
- 实践指导: DUEL 为从业者提供了可靠的采样策略选择工具——在计算受限时优先选择 Probability Margin
- Oracle 结果的启示: 36.47 vs 52.11 的巨大差距说明 MDM 的灵活生成顺序是其相对 ARM 的根本优势,但目前的启发式策略远未充分利用
- 零代码修改: 仅改变评估方式就获得显著洞察,无需修改任何训练或模型代码
局限性 / 可改进方向¶
- 与 AR 困惑度类似,DUEL 忽略了生成时使用的 token 采样策略(如 nucleus、top-k)
- 计算成本:每个解掩步需要一次前向传播,匹配生成成本但超过 ELBO 的 1-128 次蒙特卡洛采样
- Oracle 搜索需要真实 token,无法直接用于生成——需要开发不依赖真值的近似 Oracle 策略
- 仅适用于确定性策略,不覆盖 remasking 范式(如允许迭代修正的策略)
- 下游基准测试仍然需要,因为困惑度无法捕捉所有能力维度
相关工作与启发¶
- 理论基础: 建立在 AO-ARM 等价性 [Ou et al., 2024; Kim et al., 2025a] 之上,首次显式推导了有序分区下的精确似然
- 与 I-MDCE 关系的区别 [Jeon et al., 2025]: 该工作假设连续时间+最优去噪器,DUEL 适用于离散时间+训练模型
- 并行工作 [Chen et al., 2025a]: 独立推导相同精确似然用于 GRPO 强化学习训练 MDM
- 启发的未来方向:
- 扩展到 remasking 范式 [Wang et al., 2025a]
- 基于精确概率的 GRPO 风格 RL 训练 [Shao et al., 2024]
- 基于联合似然的 speculative decoding [Guo and Ermon, 2025]
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 理论贡献深刻——首次为 MDM 建立精确似然和真正的困惑度
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 in-domain/zero-shot/8B 规模/Oracle/快速采样比较,实验设计严谨
- 写作质量: ⭐⭐⭐⭐⭐ 论文写作极其清晰,从动机到理论到实验层层推进,附录证明完整
- 价值: ⭐⭐⭐⭐⭐ 改变了 MDM 领域的评估范式,所有同领域后续工作都应采用 DUEL 困惑度