DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking¶

日期: 2026-03-02
arXiv: 2603.01367
代码: https://giladturok.github.io/duel
领域: image_generation (discrete diffusion / language modeling)
关键词: masked diffusion models, exact likelihood, perplexity, deterministic unmasking, sampling strategies

一句话总结¶

DUEL 框架证明了使用确定性解码策略的掩码扩散模型（MDM）可以精确计算似然，首次为 MDM 提供了"真正的困惑度"指标，将 MDM 与自回归模型的困惑度差距缩小了最高 82%（零样本），并发现 Oracle 搜索下 MDM 可远超自回归基线（AG News 上 36.47 vs 52.11）。

研究背景与动机¶

掩码扩散模型（MDM）通过迭代选择位置解掩并预测 token 来生成文本，已经扩展到数十亿参数（LLaDA-8B、LLaDA2.0-100B、Mercury）并在语言基准测试上取得了强大结果。

核心矛盾在于：MDM 缺乏合理的似然评估方法。 1. ELBO 存在两个问题: (a) 变分间隙可能很大，系统性低估模型质量；(b) 即使界是紧的，ELBO 衡量的是训练分布 p_θ^πunif（均匀随机位置选择），而非测试时使用的确定性策略 p_θ^πF 2. 生成式困惑度: 依赖外部参考模型（如 GPT-2），继承参考模型偏差，且忽略样本多样性——重复同一句高质量文本也能获得好分数

关键洞察：许多最佳 MDM 采样器使用确定性解码策略（greedy confidence、probability margin、confidence threshold、KLASS），而确定性策略将似然计算从超指数级求和（>L! 项）坍缩为单一路径的乘积。

方法详解¶

整体框架¶

DUEL sampler 是一个二元组 (x_θ, F)：预训练去噪网络 x_θ 和确定性解码规则 F。给定部分掩码序列 z，F(z) 返回唯一的待解掩位置集合。框架统一了多种现有采样策略：

解码规则	选择方式
Left-to-Right	选最小索引的 k 个掩码位置
Greedy Confidence	选预测置信度最高的 k 个
Probability Margin	选 top-2 预测概率差值最大的 k 个
Confidence Threshold	选所有 P_ℓ^(1) ≥ μ 的位置
KLASS	选同时满足置信度和 KL 稳定性的位置

关键设计¶

1. Any-Order Autoregressive (AO-ARM) 形式化 - MDM 生成分解为位置选择（解码策略 π）和 token 预测（去噪分布 p_θ） - 有序分区 σ = (σ_1, ..., σ_T) 描述解掩规则步序列，支持并行解掩（|σ_t| > 1 时 T < L） - 联合概率分解：p_θ(x, σ) = ∏t [π_θ(σ_t | x{σ<t}) · p_θ(x_{σ_t} | x_{σ<t})]

2. 确定性策略使似然可解 (Theorem 4.3) - 确定性规则 F 消除位置选择的随机性：π_θ^F(σ_t | x_{σ<t}) = 1 当且仅当 σ_t = F(x_{σ 0，所有其他排列概率为 0 - 精确对数似然公式: log p_θ^πF(x) = Σ_t Σ_{ℓ∈σ_t} log p_θ(x^(ℓ) | x_{σ<t}) - 计算过程与生成过程完全镜像——模拟解掩过程但揭示真实 token 而非采样

3. DUEL 作为"真正的困惑度" - ELBO 对解码策略不敏感（固定 x_θ 下所有 F 报告相同值），无法比较采样策略 - 生成式困惑度依赖有偏的参考模型 - DUEL 既对去噪器 x_θ 敏感又对策略 F 敏感，无需参考模型 - 首次实现：(a) MDM 与 AR 的公正困惑度对比；(b) 固定 x_θ 比较不同策略 F

损失函数 / 训练策略¶

DUEL 不改变训练。所有模型使用标准 MDM 训练: L_ELBO(θ) = E[w_t · Σ_{ℓ∈M(z_t)} -log P_ℓ[x^(ℓ)]] DUEL 仅改变评估方式，将 ELBO 的随机多次采样替换为确定性单路径精确计算。

实验关键数据¶

主实验¶

In-Domain 困惑度（OWT，ARM baseline: 17.54）:

模型	ELBO	DUEL	Gap Closed
SEDD	≤24.10	22.58	23.2%
MDLM	≤22.98	21.86	20.6%
BD3-LM L'=4	≤20.73	19.73	31.3%
BD3-LM L'=16	≤22.27	20.76	31.9%

Zero-Shot Gap Closed:

数据集	SEDD	MDLM	BD3-LM
PTB	31.3%	34.3%	81.8%
Wikitext	40.8%	28.5%	31.4%
AG News	25.7%	27.8%	51.7%
平均	30.0%	29.9%	48.7%

8B 模型零样本困惑度:

模型	方法	Wikitext	Lambada	AG News
Llama3	Exact	7.94	32.40	41.29
LLaDA	ELBO	15.29	39.04	85.17
LLaDA	DUEL	14.50	36.00	78.91

消融实验¶

快速采样器比较（BD3-LM L'=16, OWT, DUEL 困惑度）:

解码规则	128 NFE	256 NFE	512 NFE	1024 NFE
Left-to-Right	240.27	109.71	45.99	21.46
Greedy Conf.	164.94	66.64	34.74	22.03
Prob. Margin	140.38	57.48	32.24	22.05
Conf. Thresh.	226.97	116.83	43.48	22.05

Oracle 困惑度（AG News, BD3-LM L'=4）:

模型	方法	困惑度
ARM	Exact	52.11
BD3-LM	ELBO	61.67
BD3-LM	DUEL + Left-to-Right	54.94
BD3-LM	DUEL + Prob. Margin	57.80
BD3-LM	DUEL + Oracle	36.47

关键发现¶

MDM 比之前认为的好得多——ELBO 系统性高估了与 AR 模型的差距
Probability Margin 在低 NFE 预算下是最强的默认采样策略
生成式困惑度在低 NFE 下不可靠——Left-to-Right 获得最低生成式困惑度却有最差的 DUEL 困惑度（因为产生了低熵退化文本）
Oracle 搜索表明 MDM 的天花板远未达到——最优排序可让 MDM 远超 AR 基线（36.47 vs 52.11）
解掩顺序是 MDM 独有的强大杠杆

亮点与洞察¶

优雅的理论结果: 确定性策略将不可解的 >L! 项求和坍缩为单一路径，证明简洁而深刻
重新评估认知: 之前 MDM 的"差距"部分归因于评估工具的系统性偏差，而非模型本身
实践指导: DUEL 为从业者提供了可靠的采样策略选择工具——在计算受限时优先选择 Probability Margin
Oracle 结果的启示: 36.47 vs 52.11 的巨大差距说明 MDM 的灵活生成顺序是其相对 ARM 的根本优势，但目前的启发式策略远未充分利用
零代码修改: 仅改变评估方式就获得显著洞察，无需修改任何训练或模型代码

局限性 / 可改进方向¶

与 AR 困惑度类似，DUEL 忽略了生成时使用的 token 采样策略（如 nucleus、top-k）
计算成本：每个解掩步需要一次前向传播，匹配生成成本但超过 ELBO 的 1-128 次蒙特卡洛采样
Oracle 搜索需要真实 token，无法直接用于生成——需要开发不依赖真值的近似 Oracle 策略
仅适用于确定性策略，不覆盖 remasking 范式（如允许迭代修正的策略）
下游基准测试仍然需要，因为困惑度无法捕捉所有能力维度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 理论贡献深刻——首次为 MDM 建立精确似然和真正的困惑度
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 in-domain/zero-shot/8B 规模/Oracle/快速采样比较，实验设计严谨
写作质量: ⭐⭐⭐⭐⭐ 论文写作极其清晰，从动机到理论到实验层层推进，附录证明完整
价值: ⭐⭐⭐⭐⭐ 改变了 MDM 领域的评估范式，所有同领域后续工作都应采用 DUEL 困惑度