Continuous Diffusion Model for Language Modeling¶
基本信息¶
- arXiv: 2502.11564
- 会议: NeurIPS 2025
- 作者: Jaehyeong Jo, Sung Ju Hwang
- 机构: KAIST(从作者信息推断)
- 代码: https://github.com/harryjo97/RDLM
一句话总结¶
提出一种面向离散语言建模的连续扩散框架,将离散扩散过程与统计流形上的连续流联系起来,并通过径向对称的 simulation-free 训练机制与降维技巧,显著提升扩散语言模型性能,接近自回归模型。
背景与动机¶
离散文本上的扩散建模一直面临一个核心矛盾: - 在离散状态间跳转时,迭代去噪信号容易丢失; - 纯离散扩散方法难以充分利用连续优化与几何结构; - 现有“连续化”方法在离散数据上又常常性能不佳。
论文指出,问题不只是“扩散怎么做”,而是没有正确利用类别分布背后的几何结构。
核心问题¶
如何在不丢失离散语义结构的前提下,把离散扩散与连续流形建模统一起来,从而获得更稳定、更强的语言建模能力?
方法详解¶
1. 离散扩散与统计流形连续流的统一视角¶
作者从信息几何角度建立了离散扩散过程与连续流之间的联系: - 将离散类别分布视作统计流形上的点; - 在该流形上定义连续演化; - 使扩散过程不仅是“状态扰动”,而是“几何一致的轨迹建模”。
这个视角解释了为什么一些离散扩散会在长程推理中退化,也为连续方法提供了理论锚点。
2. 广义化扩散过程¶
在上述联系基础上,论文提出一个可泛化已有离散扩散模型的连续扩散过程: - 能覆盖既有离散方法中的关键机制; - 同时保留连续参数化模型的可优化性; - 在语言任务上更易做稳定训练与采样。
3. Simulation-free 训练(径向对称)¶
为降低训练开销并提升稳定性,作者设计了基于径向对称性质的无模拟训练策略: - 避免对完整随机轨迹进行昂贵模拟; - 直接构造可训练目标; - 与高维文本空间下的训练需求兼容。
4. 高维流形处理技巧¶
针对词表大、嵌入空间高维的问题,论文引入了简洁的维度处理技巧,缓解连续流形建模在大规模语言建模中的计算负担。
实验结论(论文摘要可见)¶
- 在语言建模基准上优于已有离散扩散模型;
- 在其他模态任务上也有良好泛化;
- 整体性能接近自回归语言模型。
注:当前基于 arXiv 摘要与公开信息整理,具体数值指标可在后续补读 PDF 后补全。
亮点¶
- 理论统一性强:把“离散扩散 vs 连续扩散”从方法对立转为几何统一。
- 实用训练设计:simulation-free 训练降低落地门槛。
- 语言场景导向:明确面向离散 token 的结构化挑战。
- 性能信号积极:在扩散系 LM 里向 AR LM 靠近。
局限性¶
- 摘要未给出详细 benchmark 数值,需看正文确认提升幅度与稳定性边界。
- 连续流形建模在超大词表、超长上下文下的效率与鲁棒性仍需验证。
- 与最新高效 AR 推理技术(speculative decoding、KV 压缩)的系统级比较尚不明确。
与相关工作的对比¶
- 相比纯离散扩散:更强调几何一致性与连续优化潜力。
- 相比已有连续离散混合方法:通过统计流形联系给出更清晰理论动机。
- 相比自回归 LM:生成范式不同,但性能差距被进一步缩小。
启发¶
- 可探索将该几何视角扩展到 VLM 的离散视觉 token 生成。
- 与奖励建模或偏好优化结合,可能形成“可控扩散语言生成”新路径。
- 对 agent 场景中长序列规划,连续扩散式全局一致性或有潜在优势。
评分¶
- 新颖性:★★★★★
- 技术深度:★★★★☆
- 实验完整度:★★★★☆(待补读正文细节)
- 实用价值:★★★★☆