跳转至

Continuous Diffusion Model for Language Modeling

基本信息

  • arXiv: 2502.11564
  • 会议: NeurIPS 2025
  • 作者: Jaehyeong Jo, Sung Ju Hwang
  • 机构: KAIST(从作者信息推断)
  • 代码: https://github.com/harryjo97/RDLM

一句话总结

提出一种面向离散语言建模的连续扩散框架,将离散扩散过程与统计流形上的连续流联系起来,并通过径向对称的 simulation-free 训练机制与降维技巧,显著提升扩散语言模型性能,接近自回归模型。

背景与动机

离散文本上的扩散建模一直面临一个核心矛盾: - 在离散状态间跳转时,迭代去噪信号容易丢失; - 纯离散扩散方法难以充分利用连续优化与几何结构; - 现有“连续化”方法在离散数据上又常常性能不佳。

论文指出,问题不只是“扩散怎么做”,而是没有正确利用类别分布背后的几何结构

核心问题

如何在不丢失离散语义结构的前提下,把离散扩散与连续流形建模统一起来,从而获得更稳定、更强的语言建模能力?

方法详解

1. 离散扩散与统计流形连续流的统一视角

作者从信息几何角度建立了离散扩散过程与连续流之间的联系: - 将离散类别分布视作统计流形上的点; - 在该流形上定义连续演化; - 使扩散过程不仅是“状态扰动”,而是“几何一致的轨迹建模”。

这个视角解释了为什么一些离散扩散会在长程推理中退化,也为连续方法提供了理论锚点。

2. 广义化扩散过程

在上述联系基础上,论文提出一个可泛化已有离散扩散模型的连续扩散过程: - 能覆盖既有离散方法中的关键机制; - 同时保留连续参数化模型的可优化性; - 在语言任务上更易做稳定训练与采样。

3. Simulation-free 训练(径向对称)

为降低训练开销并提升稳定性,作者设计了基于径向对称性质的无模拟训练策略: - 避免对完整随机轨迹进行昂贵模拟; - 直接构造可训练目标; - 与高维文本空间下的训练需求兼容。

4. 高维流形处理技巧

针对词表大、嵌入空间高维的问题,论文引入了简洁的维度处理技巧,缓解连续流形建模在大规模语言建模中的计算负担。

实验结论(论文摘要可见)

  • 在语言建模基准上优于已有离散扩散模型;
  • 在其他模态任务上也有良好泛化;
  • 整体性能接近自回归语言模型。

注:当前基于 arXiv 摘要与公开信息整理,具体数值指标可在后续补读 PDF 后补全。

亮点

  1. 理论统一性强:把“离散扩散 vs 连续扩散”从方法对立转为几何统一。
  2. 实用训练设计:simulation-free 训练降低落地门槛。
  3. 语言场景导向:明确面向离散 token 的结构化挑战。
  4. 性能信号积极:在扩散系 LM 里向 AR LM 靠近。

局限性

  1. 摘要未给出详细 benchmark 数值,需看正文确认提升幅度与稳定性边界。
  2. 连续流形建模在超大词表、超长上下文下的效率与鲁棒性仍需验证。
  3. 与最新高效 AR 推理技术(speculative decoding、KV 压缩)的系统级比较尚不明确。

与相关工作的对比

  • 相比纯离散扩散:更强调几何一致性与连续优化潜力。
  • 相比已有连续离散混合方法:通过统计流形联系给出更清晰理论动机。
  • 相比自回归 LM:生成范式不同,但性能差距被进一步缩小。

启发

  • 可探索将该几何视角扩展到 VLM 的离散视觉 token 生成。
  • 与奖励建模或偏好优化结合,可能形成“可控扩散语言生成”新路径。
  • 对 agent 场景中长序列规划,连续扩散式全局一致性或有潜在优势。

评分

  • 新颖性:★★★★★
  • 技术深度:★★★★☆
  • 实验完整度:★★★★☆(待补读正文细节)
  • 实用价值:★★★★☆