Continuous Diffusion Model for Language Modeling¶

基本信息¶

提出一种面向离散语言建模的连续扩散框架，将离散扩散过程与统计流形上的连续流联系起来，并通过径向对称的 simulation-free 训练机制与降维技巧，显著提升扩散语言模型性能，接近自回归模型。

离散文本上的扩散建模一直面临一个核心矛盾： - 在离散状态间跳转时，迭代去噪信号容易丢失； - 纯离散扩散方法难以充分利用连续优化与几何结构； - 现有“连续化”方法在离散数据上又常常性能不佳。

论文指出，问题不只是“扩散怎么做”，而是没有正确利用类别分布背后的几何结构。

如何在不丢失离散语义结构的前提下，把离散扩散与连续流形建模统一起来，从而获得更稳定、更强的语言建模能力？

作者从信息几何角度建立了离散扩散过程与连续流之间的联系： - 将离散类别分布视作统计流形上的点； - 在该流形上定义连续演化； - 使扩散过程不仅是“状态扰动”，而是“几何一致的轨迹建模”。

这个视角解释了为什么一些离散扩散会在长程推理中退化，也为连续方法提供了理论锚点。

在上述联系基础上，论文提出一个可泛化已有离散扩散模型的连续扩散过程： - 能覆盖既有离散方法中的关键机制； - 同时保留连续参数化模型的可优化性； - 在语言任务上更易做稳定训练与采样。

为降低训练开销并提升稳定性，作者设计了基于径向对称性质的无模拟训练策略： - 避免对完整随机轨迹进行昂贵模拟； - 直接构造可训练目标； - 与高维文本空间下的训练需求兼容。

针对词表大、嵌入空间高维的问题，论文引入了简洁的维度处理技巧，缓解连续流形建模在大规模语言建模中的计算负担。

注：当前基于 arXiv 摘要与公开信息整理，具体数值指标可在后续补读 PDF 后补全。