Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models¶

会议: NeurIPS 2025
arXiv: 2505.21400
代码: 无（理论工作）
领域: 图像生成 / 理论 / 扩散语言模型
关键词: diffusion language model, autoregressive bottleneck, 收敛保证, 信息论, 采样加速, 互信息

一句话总结¶

从信息论角度为扩散语言模型建立收敛保证，证明采样误差（KL散度）随迭代次数T成反比衰减且与token间互信息线性相关，关键证明了T<L（迭代次数可少于序列长度L）时仍可生成高质量样本，从理论上打破了自回归模型需要L步的基本采样瓶颈，并建立了匹配的上下界证明分析的紧致性。

背景与动机¶

自回归（AR）模型需要L步顺序生成L个token——每步依赖前一步的输出，无法并行化。扩散语言模型（如MDLM/dLLM）允许并行采样，经验上在fewer-than-L步就能生成可接受质量的序列。但缺乏理论解释：为什么扩散语言模型可以用T<L步生成高质量样本？质量和步数之间的精确关系是什么？

核心问题¶

扩散语言模型相比AR模型在采样步数上的理论优势是什么？能否提供可证明的收敛速率？

方法详解¶

整体框架¶

这是一篇纯理论工作，从信息论角度分析扩散语言模型的采样过程。

关键结果¶

收敛速率：证明采样误差（KL散度）以\(O(1/T)\)的速率衰减，其中T是去噪迭代次数。同时误差与序列中token间的互信息（mutual information）成线性关系——token间依赖越弱（互信息越小），收敛越快。
打破L步瓶颈：核心定理证明当\(T < L\)时（迭代次数少于序列长度），只要T满足一定条件（与互信息相关的bound），扩散模型仍然可以生成高质量样本。这从理论上解释了为什么扩散语言模型可以比AR模型更快——AR必须L步，扩散模型可以少于L步。
匹配上下界：不仅给出了收敛上界，还证明了对应的下界（差一个常数因子），说明分析是tight的——不是松弛的bound，而是精确刻画了扩散语言模型的收敛行为。

关键洞察¶

互信息是关键：token间互信息越低→扩散模型的加速比越大。对于高度冗余或低依赖性的序列，扩散模型的优势更明显。
并行性的理论基础：AR的L步瓶颈来自序列依赖的链式结构，扩散模型通过全局去噪绕开了这个链式依赖。

实验关键数据¶

这是理论工作，没有实验数据。主要贡献是定理和证明。

亮点¶

填补了扩散语言模型的理论空白：经验成功但理论基础缺失——本文提供了第一个严谨的收敛保证
\(T < L\)的理论证明是核心贡献——为扩散语言模型相对AR的效率优势提供了数学证明
tight bounds说明分析不可进一步显著改善——给出了问题的精确理论刻画
互信息作为关键量的洞察有实际指导意义——设计扩散语言模型时可以利用token间互信息结构

局限性 / 可改进方向¶

理论分析中的假设（如模型容量无限、score估计精确等）与实际有差距
互信息的精确计算在实际中困难
未提供实验验证理论预测
constant factors在实际中可能不忽略

与相关工作的对比¶

vs. SANA-Sprint/DOLLAR等应用工作：SANA-Sprint实现了经验上的步数减少；本文提供其背后的理论解释
vs. 传统扩散模型理论：传统分析针对连续空间扩散；本文针对离散token空间

启发与关联¶

互信息bound提示可以设计"互信息感知"的采样调度——对高互信息token用更多步，低互信息token少步
理论为扩散语言模型在代码生成、蛋白质设计等离散序列生成中的应用提供了基础

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个扩散语言模型的可证收敛保证，tight bounds
实验充分度: ⭐⭐⭐ 纯理论工作，无实验验证
写作质量: ⭐⭐⭐⭐ 理论清晰
价值: ⭐⭐⭐⭐ 为扩散语言模型的效率优势提供了理论基础