Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct¶

会议: ICLR 2026
arXiv: 2509.25035
代码: https://github.com/haoyangzheng-ai/didi-instruct (有)
领域: LLM Efficiency / 离散扩散模型 / 语言生成加速
关键词: Discrete Diffusion, Distillation, Masked Diffusion Model, KL Divergence, Few-Step Generation, Policy Gradient

一句话总结¶

提出 DiDi-Instruct，一种基于积分 KL 散度 (IKL) 最小化的蒸馏框架，将预训练的扩散大语言模型 (dLLM) 蒸馏为少步学生模型，通过对抗性密度比估计 + 分组奖励归一化 + 分数分解 + 奖励引导祖先采样器 (RGAS) 四大关键设计，在 OpenWebText 上仅用 16 步即超越 1024 步教师模型的 PPL，实现最高 64× 推理加速，同时训练成本仅需 1 GPU 小时。

研究背景与动机¶

领域现状：自回归 (AR) 大语言模型（GPT 系列）在 NLP 各任务上取得巨大成功，但受限于从左到右逐 token 生成的串行瓶颈，吞吐量存在天花板。扩散大语言模型 (dLLM) 借鉴图像扩散模型的思想，将文本生成重新定义为迭代去噪过程，利用双向注意力实现并行生成，成为 AR 模型的有力替代方案。

现有痛点： - 推理步数过多：dLLM 在 OpenWebText 基准上需要 256 步才能匹配 GPT-2 的生成质量，推理效率依然不够理想 - 已有蒸馏方法不足：SDTT（自蒸馏）在 32 步内仍无法媲美 GPT-2；DUO（一致性蒸馏）需要多轮训练，GPU 开销大（20+ GPU 小时）；DSDD 虽然做了分布匹配但在文本生成上效果有限 - 缺乏理论基础：现有 dLLM 蒸馏方法多基于启发式设计，缺少统一且严格的理论框架 - 离散空间的挑战：连续扩散模型上的 IKL 方法依赖可微分的采样路径，但 dLLM 的离散状态空间（argmax 等不可微操作）使得梯度无法直接从采样路径传播

核心矛盾：如何在离散 token 空间中建立一个理论上有保障、实践中高效稳定的蒸馏框架，使少步学生模型能匹配甚至超越多步教师的生成质量？

切入角度：将连续扩散模型的积分 KL 散度 (IKL) 思想迁移到 Masked Diffusion Model (MDM)，通过策略梯度 (policy gradient) 绕过离散不可微问题，结合对抗训练估计密度比作为奖励信号。

方法详解¶

整体框架¶

DiDi-Instruct 的核心是师生蒸馏框架：给定一个预训练的 dLLM 教师模型 \(\mathbf{p}_\theta\)，训练一个结构相同的少步学生模型 \(\mathbf{p}_\nu\)，使学生在极少推理步数下就能复现教师的生成分布。

整体流水线如下： 1. 从全 MASK 序列出发，学生和教师分别生成完整文本 \(\mathbf{x}\) 和 \(\mathbf{x}'\) 2. 将两者在随机时间步 \(t_i\) 进行前向加噪（部分 MASK），得到 \(\mathbf{z}_i\) 和 \(\mathbf{z}_i'\) 3. 判别器 \(D_\lambda\) 训练区分两个来源的加噪样本，输出密度比作为奖励 4. 学生利用奖励信号通过策略梯度更新参数 5. 推理时使用 RGAS（奖励引导祖先采样器）进一步提升生成质量

关键设计¶

(1) 基于策略梯度的 IKL 最小化¶

论文的核心理论贡献是 Score-Function Identity（定理 3.1）：将 IKL 目标的梯度分解为 score function 形式，避免对离散采样路径求导。具体地，梯度表达为：

\[\nabla_\nu \mathcal{L}(\nu) = \mathbb{E}_{t,\mathbf{x},\mathbf{z}_t}\left[\frac{\omega(t)}{\pi(t)} \cdot R(\mathbf{z}_t, t) \cdot \nabla_\nu \log \mathbf{p}_\nu(\mathbf{z}_t = \mathbf{m}, t=1)\right]\]

其中奖励 \(R(\mathbf{z}_t, t) = \log \mathbf{q}_\nu(\mathbf{z}_t, t) - \log \mathbf{q}_\theta(\mathbf{z}_t, t)\) 是学生/教师的对数密度比。这一公式将蒸馏问题完全转化为策略梯度框架，天然适配离散空间。

(2) 对抗性密度比估计¶

由于直接计算学生/教师的边际密度不可行，论文训练一个辅助判别器 \(D_\lambda\) 来估计密度比。判别器使用标准二元交叉熵训练：

\[\mathcal{L}_D(\lambda) = -\frac{1}{G}\sum_{i=1}^G \left[\log D_\lambda(\mathbf{z}_i, t_i) + \log(1 - D_\lambda(\mathbf{z}_i', t_i))\right]\]

最优判别器的 logit 输出天然对应密度比 \(\log \frac{\mathbf{q}_\nu}{\mathbf{q}_\theta}\)，为策略梯度提供可靠的奖励信号。判别器采用 131M 参数，基于教师模型骨干初始化，分类头使用谱归一化。

(3) 分组奖励归一化 (Grouped Reward Normalization)¶

借鉴 GRPO 的思想，对 mini-batch 内的奖励做标准化处理：

\[\widetilde{R}_i = \frac{R_i - \mu_g}{\sigma_g + \epsilon}\]

显著降低策略梯度的方差，提高训练稳定性。

(4) 分数分解 (Score Decomposition)¶

直接从全 MASK 到完整序列的一步生成容易导致模式坍塌。论文提出将 score function 在中间状态 \(\mathbf{z}_i\) 处分解：

\[\nabla_\nu \log \mathbf{p}_\nu(\mathbf{z}_t=\mathbf{m}, t=1) \approx \nabla_\nu \log \mathcal{P}_\nu(\mathbf{z}_i | \mathbf{z}_t=\mathbf{m}) + \nabla_\nu \log \mathbf{p}_\nu(\mathbf{z}_i, t_i)\]

这使学生接触到中间加噪状态的分布，有效防止熵坍塌。消融实验证明这是最关键的组件——去掉后 PPL 直接爆炸到 33584。

(5) 奖励引导祖先采样器 (RGAS)¶

推理阶段的两阶段策略： - 早期步骤（\(t_n \approx 1\)）：使用梯度倾斜 (\(h > 0, M=1\))，利用奖励梯度调整 logits，引导全局结构 - 后期步骤（\(t_n \approx 0\)）：切换为多候选重排 (\(h=0, M>1\))，生成 \(M\) 个候选并依据奖励做 softmax 加权采样

训练策略¶

参数初始化：学生和判别器均从预训练教师模型初始化
判别器预热：先冻结学生参数单独训练判别器，避免训练初期不稳定
梯度/奖励裁剪：防止爆炸更新
交替训练：每个训练步先更新判别器再更新学生
高效训练：仅需 10,000 步迭代，AdamW 优化器（lr=1e-6），单卡 H100 约 1 小时完成蒸馏
混合精度：使用 bfloat16 加速

实验关键数据¶

主实验：OpenWebText 生成质量 (PPL↓ / Entropy)¶

方法	8 NFEs	16 NFEs	32 NFEs	64 NFEs	128 NFEs
GPT-2 (AR)	—	—	—	—	PPL=18.3
MDLM Teacher (1024步)	—	—	—	—	PPL=38.5
SDTT	无法收敛	~100+	~60+	~40+	~30+
DUO	~150+	~80+	~50+	~35+	~25+
DiDi-Instruct	62.2	38.2	25.0	21.9	18.4

16 步即超越 1024 步教师模型
128 步 PPL=18.4，接近 GPT-2 的 18.3，比最强基线降低 24%+
熵损失极小（约 1%），样本多样性几乎无损

累积消融实验 (169M 模型)¶

配置	8 NFEs PPL	16 NFEs PPL	32 NFEs PPL	64 NFEs PPL	128 NFEs PPL
Baseline (无技巧)	803.9	311.5	174.8	113.1	96.6
+ Score Decompose	667.8	289.7	165.8	105.9	89.4
+ Coupled Time	101.0	75.2	48.4	35.8	30.6
+ ω(t) Correction	95.0	75.6	31.7	25.3	21.0
+ π(t) Weighting	92.1	44.0	32.3	26.1	21.4
+ Regularization	88.3	44.0	28.4	21.9	18.3
+ Guided Inference (完整)	62.2	38.2	25.0	21.9	18.4

模型规模与效率¶

指标	数值
教师模型参数	169M (DiT, 12层/12头/768维)
学生模型参数	169M（结构相同）
判别器参数	131M
蒸馏训练时间	~1 H100 GPU 小时
竞品训练时间	20+ GPU 小时 (SDTT/DUO)
推理吞吐	2366 tokens/sec
相比 AR 模型加速	13.2× (matched PPL)
424M 扩展后 16 步 PPL	32.79（比 1024 步教师提升 11.4%）

亮点与洞察¶

理论-实践闭环：从连续扩散 IKL → 离散 MDM 的 score-function identity → 策略梯度 → 对抗奖励估计，形成完整且严谨的理论链条。不是拼凑技巧，而是从一个统一目标出发推导出所有组件的必要性。
训练效率惊人：仅 1 GPU 小时 vs 竞品 20+ GPU 小时，降低 20× 训练成本。关键在于单轮蒸馏 + 对抗训练的高效性，无需像 DUO 那样多轮迭代。
少步生成突破性：16 步即超越 1024 步教师，这意味着 64× 推理加速几乎没有质量损失。这一结果在 dLLM 加速文献中前所未有。
分数分解是核心：消融实验揭示 Score Decomposition 是不可或缺的组件——去掉后 PPL 从 62 爆到 33584（500×+），说明中间状态匹配对多步蒸馏至关重要。
跨领域验证：不仅在自然语言上有效，还成功应用于蛋白质序列生成（pLDDT > 70，仅需 8-32 步），证明框架的通用性。
RGAS 的精妙设计：早期梯度引导 + 后期多候选重排的分阶段策略，既保证全局结构又精细化局部细节，比统一策略更灵活。

局限性¶

模型规模有限：实验仅覆盖 169M 和 424M，尚未验证在 billion 级参数模型上的效果。作者坦言同时维护教师+学生+判别器三个模型的显存开销是扩展的主要瓶颈。
仅在非条件生成上验证：所有实验均为无条件文本生成（OpenWebText），未涉及条件生成任务（如指令跟随、对话、翻译），实际应用场景有限。
对抗训练的固有风险：判别器-生成器的对抗框架在训练过程中可能不稳定，虽然作者通过预热和裁剪缓解了问题，但在更大规模或更复杂任务上是否可靠需要进一步验证。
教师模型质量受限：基线教师 MDLM 的 1024 步 PPL 为 38.5，远高于 GPT-2 的 18.3。学生最终 PPL 逼近 18.4 部分得益于蒸馏过程的"超越教师"效应，但教师本身的能力天花板仍是 dLLM 的根本瓶颈。
8 步生成仍有明显缺陷：8 NFEs 下 PPL=62.2，且文本样本存在明显重复现象，说明极端少步场景下的生成质量还有较大提升空间。

评分¶

维度	分数 (1-10)	说明
新颖性	8	首次将 IKL 蒸馏成功迁移到离散扩散模型，策略梯度绕过离散不可微的思路优雅
理论深度	9	完整的理论推导链（IKL → Score-Function Identity → 密度比估计），附录证明严谨
实验充分性	8	累积+留一消融、规模扩展、跨领域（蛋白质）、下游任务，覆盖全面
实用价值	7	训练高效、加速显著，但仅验证非条件生成，且模型规模有限
写作质量	8	结构清晰，公式推导连贯，图示（Figure 2）直观展示了流水线
总分	8.0	理论贡献扎实、实验结果令人印象深刻的 dLLM 加速工作