CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language¶
日期: 2026-03-02
arXiv: 2603.20210
代码: 无
领域: LLM效率 / 扩散语言模型
关键词: masked diffusion model, continuous latent, sentence-level semantics, hybrid diffusion, MDM
一句话总结¶
CRoCoDiL 将 Masked Diffusion Model(MDM)的扩散过程从离散 token 空间迁移到连续句子级语义空间,通过联合训练 encoder-demasker 架构形成新型自编码器,并提出两种无条件文本生成算法(ConThenDisc 和 ConWithinDisc),在保持生成质量的同时实现超过 10× 的采样加速。
研究背景与动机¶
- 领域现状:Masked Diffusion Model(MDM)如 LLaDA 和 MDLM 提供了非因果的高效文本生成替代方案。MDM 从全 mask 序列出发,逐步去噪恢复 token,支持并行生成。
- 现有痛点:MDM 在离散空间做扩散存在两个根本问题:(a) token 依赖性差——每个位置独立采样边缘分布 \(p(x_i|x_t)\),忽略已去噪 token 之间的依赖;(b) 语义不连贯——离散边缘分布无法表达句子级的语义一致性,导致生成文本有局部正确但全局不通顺的问题
- 核心矛盾:MDM 要速度(并行去噪)就会牺牲依赖建模(只看局部),要语义一致就要看全局但会变慢
- 切入角度:将扩散过程从离散 token 空间迁移到连续语义空间——在连续空间中可以更自然地建模全局语义依赖
- 核心 idea:在连续语句语义空间做扩散 + 用MDM做解码器,形成"连续扩散生latent → 离散MDM解码到token"的混合流程
方法详解¶
整体框架¶
CRoCoDiL 联合训练:(1) Encoder 将 token 序列编码到连续语义 latent 空间;(2) MDM Demasker 以连续 latent 为条件,执行 token 去噪。两者形成新型自编码器:编码用 encoder,解码用 MDM 采样。推理时用连续扩散生成 latent 再用 MDM 解码。
关键设计¶
-
Encoder-Demasker 联合训练
- 做什么:将 MDM 的去噪过程 grounded 到连续 latent 表示上
- 核心思路:Encoder 接收完整 token 序列,输出连续向量 \(z\)。Demasker 在去噪时以 \(z\) 为额外条件——\(p_\theta(x_0|x_t, z)\)。训练目标同时优化重建损失和扩散去噪损失
- 设计动机:连续 latent \(z\) 跨越了整个句子信息,使每个位置的去噪决策能参考全局语义
-
ConThenDisc(先连续后离散)
- 做什么:两阶段生成——先在连续空间生成 latent \(z\),再用 MDM 解码为 token
- 核心思路:训练一个连续扩散模型(如 DDPM)学习 latent 空间的分布。推理时先采样 \(z \sim p(z)\)(连续扩散),再将 \(z\) 送入 Demasker 做 token 去噪
- 设计动机:将全局语义生成(连续扩散)和局部token选择(MDM)解耦,各自发挥优势
-
ConWithinDisc(连续嵌入离散)
- 做什么:在 MDM 的每步离散采样中,同时在连续空间做一步 latent 精炼
- 核心思路:多扩散策略——每一步 MDM 去噪后,用当前部分去噪的序列更新连续 latent \(z\)(一步连续扩散),再用更好的 \(z\) 指导下一步 MDM 去噪
- 设计动机:离散和连续过程交替进行,每步都有更好的全局信号,生成质量更高
训练策略¶
- 基于 LLaDA 架构,联合训练 encoder 和 demasker
- 连续扩散模型在训练好的 latent 空间上单独训练
- 推理时可选 ConThenDisc(更快)或 ConWithinDisc(更好)
实验关键数据¶
主实验(无条件文本生成)¶
| 方法 | 生成质量 (PPL↓) | 多样性 | 采样速度(相对) |
|---|---|---|---|
| LLaDA (MDM baseline) | 参考 | 参考 | 1× |
| MDLM | 中等 | 中等 | ~1× |
| ConThenDisc | 更优 | 更优 | >10× |
| ConWithinDisc | 最优 | 最优 | 约 5× |
消融实验¶
| 配置 | 生成质量 | 说明 |
|---|---|---|
| MDM 无连续条件 | 基线 | 标准 MDM |
| MDM + 连续条件 (CRoCoDiL) | 显著提升 | 连续 latent 提供全局语义 |
| ConThenDisc | 速度最快 | 质量略低于 ConWithinDisc |
| ConWithinDisc | 质量最优 | 但速度慢于 ConThenDisc |
关键发现¶
- 连续语义条件对 MDM 生成质量有本质性提升——证实了"离散边缘分布缺乏全局语义"的分析
- ConThenDisc 的 10× 加速来自于连续扩散采样 latent 后 MDM 只需很少步就能解码(因为全局信息已经在 latent 中了)
- ConWithinDisc 的交替策略质量更好但加速幅度较小
- 方法在 LLaDA 上验证,说明对主流 MDM 架构有效
亮点与洞察¶
- 连续+离散混合扩散的新范式:不是在连续和离散之间二选一,而是让两者互补——连续做全局语义,离散做精确token选择
- MDM 作为解码器的新视角:将 MDM 重新理解为"条件扩散解码器",为 latent diffusion 在语言领域的应用开辟了路径
- 10× 速度提升是实用的:MDM 的采样速度是限制其部署的瓶颈,CRoCoDiL 的加速使 MDM 更接近实用
局限性 / 可改进方向¶
- 当前只验证了无条件文本生成,条件生成(如对话、翻译)效果待验证
- 连续扩散模型本身有训练和采样开销
- Encoder 需要看到完整输入来生成 latent——对自回归/流式场景不友好
- 与自回归 LLM 的性能差距仍在——MDM 整体还在追赶
相关工作与启发¶
- vs LLaDA/Dream: CRoCoDiL 不替代 MDM,而是增强它——通过连续 latent grounding 提升质量和速度
- vs Latent Diffusion (图像): Stable Diffusion 在像素→latent 空间做扩散,CRoCoDiL 把类似思想搬到语言领域
- vs Plaid (连续文本扩散): Plaid 直接在连续空间做文本扩散,CRoCoDiL 更巧妙地结合了连续和离散
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 连续+离散混合扩散的formulation很有创意
- 实验充分度: ⭐⭐⭐ 只在无条件生成上验证,应用场景有限
- 写作质量: ⭐⭐⭐⭐ 两种算法(ConThenDisc/ConWithinDisc)的对比讲述清晰
- 价值: ⭐⭐⭐⭐ 10×加速是实用的,为MDM的改进提供了新路径