Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning¶
会议: NeurIPS 2025 arXiv: 2509.15188 代码: 未开源 领域: 文本生成 / 扩散语言模型 关键词: diffusion language model, convolutional decoding normalization, rejective fine-tuning, semi-autoregressive, time-gap expansion
一句话总结¶
通过卷积解码归一化(替代硬半自回归分块)和基于规则的拒绝微调 R2FT,在 128 步推理下实现与 512+ 步相当的扩散语言模型生成质量,达到 DLM 领域 SOTA。
研究背景与动机¶
-
扩散语言模型兴起:MDLM、SEDD、LLADA 等扩散语言模型(DLM)通过迭代去噪生成文本,天然支持双向依赖建模。与自回归模型(ARM)不同,DLM 可同时考虑上下文信息,理论上表达能力更强。
-
推理速度瓶颈:现有 DLM 需要 512–1024 步才能获得合理的生成质量,这使其推理速度远低于 ARM。减少步数是 DLM 实用化的关键挑战。
-
半自回归方法的缺陷:Block-diffusion 等方法通过将序列切分为固定大小的块进行半自回归(SAR)解码来加速推理,但引入了"时间间隔扩展"(time-gap expansion)问题——训练时假设的连续时间条件在少步推理时被违反,导致块边界处质量急剧下降。
-
内容退化问题:DLM 常生成高先验词(如 "the"、"and" 占据不合理位置)和重复 token,这是扩散过程中缺乏自回归约束的固有退化模式,在减少步数后愈加严重。
-
缺乏系统分析:现有工作缺乏对 DLM 步数-质量 trade-off 的数学分析,也没有区分"窗口不匹配"和"内容退化"这两类独立问题。
-
核心思路:作者提出两个正交解决方案——卷积解码归一化通过连续收缩(而非硬切块)解决窗口不匹配问题;R2FT 通过 DPO 风格后训练消除退化 token,二者组合在 128 步达到 512 步水平。
方法详解¶
整体框架¶
本文针对 DLM 的两个独立问题提出两个正交解决方案,可分别或组合使用: - 卷积解码归一化(Convolutional Decoding Normalization):解决半自回归推理中的时间间隔扩展问题 - 拒绝微调 R2FT(Rejective Fine-Tuning):消除高先验词和重复 token 的退化模式
关键设计 1:时间间隔扩展的理论分析¶
- 问题定义:在半自回归解码中,序列被分为 \(B\) 个块,每块内并行去噪。训练时 DLM 假设时间步 \(t\) 连续变化,但 SAR 推理时每块的有效时间步是 \(t_\beta = 1/S_\beta\)(\(S_\beta\) 为块内步数)。当总步数减少时,\(d \cdot t_\beta\) 增大,违反连续时间假设
- 后果:块边界处出现明显的质量跳跃,表现为不连贯、语法错误和信息缺失
- 意义:这一理论分析解释了为何简单减少步数会导致 SAR-DLM 质量骤降,为解决方案提供了数学指导
关键设计 2:卷积解码归一化¶
- 核心思路:用可学习的位置依赖缩放替代硬分块切换。定义缩放因子 \(s_i = \tanh(u_i)\),其中 \(u_i\) 基于卷积核内已解码邻居的数量计算,实现从"全掩码"到"全解码"的连续过渡
- 工作机制:在每一步去噪中,已解码位置的邻居越多,该位置的解码置信度越高。卷积窗口逐渐从左向右扫过序列,避免了硬边界
- 训练集成:卷积归一化直接嵌入 DLM 训练流程,使模型学习在连续窗口下工作,推理和训练一致
- 优势:连续收缩消除了 \(d \cdot t_\beta\) 跳变,使 128 步推理不再违反训练假设
关键设计 3:拒绝微调 R2FT¶
- 目标:消除 DLM 特有的两类退化——远距离位置的高先验词占位和 token 重复
- 负例构造:通过规则自动识别退化样本——拼接 prompt 片段、插入高频无意义词、复制相邻 token 来合成负例,无需人工标注
- 训练目标:采用 DPO 风格的偏好学习目标,对退化 token 施加下采权(down-weighting),使模型在微调后倾向于生成多样且语义合理的内容
- 设计优势:R2FT 不改变解码窗口机制,与卷积归一化正交,可独立使用也可叠加
损失函数 / 训练策略¶
- 基础训练:标准掩码扩散语言模型目标(masked diffusion loss),加入卷积解码归一化层
- 后训练:R2FT 使用 DPO 损失对预训练模型微调,正例为正常生成,负例为规则合成的退化样本
- 推理:128 步卷积解码 + 标准 top-k/nucleus 采样
实验¶
主实验:开放式文本生成¶
基于 LLADA-8B 架构在 AlpacaEval 上评测,G-Eval 自动评分:
| 方法 | 步数 | G-Eval ↑ | 相对 512 步基线 |
|---|---|---|---|
| LLADA(原始) | 512 | 基线 | — |
| LLADA(原始) | 128 | 明显下降 | 质量退化严重 |
| + SAR 硬分块 | 128 | 部分恢复 | 仍有块边界伪影 |
| + 卷积归一化 | 128 | 接近 512 步 | 消除窗口不匹配 |
| + R2FT | 128 | 进一步提升 | 消除退化 token |
| + 卷积归一化 + R2FT | 128 | DLM SOTA | 匹配或超越 512 步 |
消融实验与分析¶
| 消融条件 | G-Eval 变化 | 说明 |
|---|---|---|
| 去掉卷积归一化 | 下降显著 | 块边界伪影回归 |
| 去掉 R2FT | 下降中等 | 高先验词和重复增加 |
| 仅用 SAR 硬分块 | 不如卷积归一化 | 时间间隔扩展未解决 |
| 步数 64 步 | 质量仍可接受 | 卷积归一化鲁棒性强 |
| 步数 256 步 | 接近 512 步满配 | 边际收益递减 |
关键发现¶
- 128 步达到 512 步质量:约 4 倍加速,是目前 DLM 领域最优步数-质量 trade-off
- 卷积归一化是主要贡献:单独使用即可大幅缩小步数差距,验证了时间间隔扩展理论
- R2FT 提供互补增益:在卷积归一化基础上进一步消除定性退化,两者叠加效果最优
- 退化模式分析:高先验词在远离 prompt 的位置出现频率更高,R2FT 针对性地下采权这些位置
亮点¶
- 理论驱动的工程方案:先严谨分析时间间隔扩展的数学根因,再针对性设计卷积归一化,避免了盲目试错
- 正交改进可叠加:卷积归一化解决结构问题,R2FT 解决内容问题,两者独立有效且组合最优
- 无需额外标注:R2FT 的负例完全通过规则合成,无需人工偏好数据
- 实用性强:128 步即可获得高质量生成,显著推进 DLM 的实际部署可行性
局限性¶
- 评估覆盖有限:主要在开放式文本生成任务上验证,未涵盖代码生成、数学推理、摘要等其他重要任务
- 双向性优势未充分展示:DLM 的理论优势在于双向建模,但实验未设计专门验证此特性的场景
- 规模可扩展性:仅在 8B 参数级别验证,更大或更小模型上的效果未知
- 与 ARM 的差距:即便在 DLM 内部达到 SOTA,与同规模 ARM(如 LLaMA-3-8B)的绝对质量和速度差距仍然存在
相关工作¶
- 扩散语言模型:MDLM、SEDD 奠定了离散扩散语言建模基础;LLADA 将 DLM 扩展到大规模预训练;Block-diffusion 提出半自回归加速但未解决时间间隔扩展
- DLM 加速:已有工作探索步数缩减和缓存策略,但多关注连续扩散模型(图像领域),离散 DLM 的加速研究较少
- 偏好对齐:DPO、RLHF 等后训练方法在 ARM 上广泛应用,本文将类似思路迁移到 DLM,提出针对扩散退化模式的 R2FT
- 文本生成质量:自回归模型通过 RLHF/DPO 解决重复和无意义输出问题,DLM 的退化模式不同(高先验占位),需要专门的解决方案
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 时间间隔扩展的理论分析和卷积归一化方案均为新颖贡献 |
| 实验充分度 | ⭐⭐⭐ | 核心结论验证充分,但任务类型和模型规模覆盖有限 |
| 写作质量 | ⭐⭐⭐⭐ | 理论分析严谨,动机-方法-实验逻辑链清晰 |
| 实用价值 | ⭐⭐⭐⭐ | 4 倍加速对 DLM 实用化有重要推动意义 |
综合评分: ⭐⭐⭐⭐ — 理论分析深入,提出的卷积归一化和 R2FT 方案实用有效,是 DLM 加速方向的重要工作。任务覆盖面可进一步拓展。