跳转至

CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language

日期: 2026-03-02
arXiv: 2603.20210
代码: 无
领域: LLM效率 / 扩散语言模型
关键词: masked diffusion model, continuous latent, sentence-level semantics, hybrid diffusion, MDM

一句话总结

CRoCoDiL 将 Masked Diffusion Model(MDM)的扩散过程从离散 token 空间迁移到连续句子级语义空间,通过联合训练 encoder-demasker 架构形成新型自编码器,并提出两种无条件文本生成算法(ConThenDisc 和 ConWithinDisc),在保持生成质量的同时实现超过 10× 的采样加速。

研究背景与动机

  1. 领域现状:Masked Diffusion Model(MDM)如 LLaDA 和 MDLM 提供了非因果的高效文本生成替代方案。MDM 从全 mask 序列出发,逐步去噪恢复 token,支持并行生成。
  2. 现有痛点:MDM 在离散空间做扩散存在两个根本问题:(a) token 依赖性差——每个位置独立采样边缘分布 \(p(x_i|x_t)\),忽略已去噪 token 之间的依赖;(b) 语义不连贯——离散边缘分布无法表达句子级的语义一致性,导致生成文本有局部正确但全局不通顺的问题
  3. 核心矛盾:MDM 要速度(并行去噪)就会牺牲依赖建模(只看局部),要语义一致就要看全局但会变慢
  4. 切入角度:将扩散过程从离散 token 空间迁移到连续语义空间——在连续空间中可以更自然地建模全局语义依赖
  5. 核心 idea在连续语句语义空间做扩散 + 用MDM做解码器,形成"连续扩散生latent → 离散MDM解码到token"的混合流程

方法详解

整体框架

CRoCoDiL 联合训练:(1) Encoder 将 token 序列编码到连续语义 latent 空间;(2) MDM Demasker 以连续 latent 为条件,执行 token 去噪。两者形成新型自编码器:编码用 encoder,解码用 MDM 采样。推理时用连续扩散生成 latent 再用 MDM 解码。

关键设计

  1. Encoder-Demasker 联合训练

    • 做什么:将 MDM 的去噪过程 grounded 到连续 latent 表示上
    • 核心思路:Encoder 接收完整 token 序列,输出连续向量 \(z\)。Demasker 在去噪时以 \(z\) 为额外条件——\(p_\theta(x_0|x_t, z)\)。训练目标同时优化重建损失和扩散去噪损失
    • 设计动机:连续 latent \(z\) 跨越了整个句子信息,使每个位置的去噪决策能参考全局语义
  2. ConThenDisc(先连续后离散)

    • 做什么:两阶段生成——先在连续空间生成 latent \(z\),再用 MDM 解码为 token
    • 核心思路:训练一个连续扩散模型(如 DDPM)学习 latent 空间的分布。推理时先采样 \(z \sim p(z)\)(连续扩散),再将 \(z\) 送入 Demasker 做 token 去噪
    • 设计动机:将全局语义生成(连续扩散)和局部token选择(MDM)解耦,各自发挥优势
  3. ConWithinDisc(连续嵌入离散)

    • 做什么:在 MDM 的每步离散采样中,同时在连续空间做一步 latent 精炼
    • 核心思路:多扩散策略——每一步 MDM 去噪后,用当前部分去噪的序列更新连续 latent \(z\)(一步连续扩散),再用更好的 \(z\) 指导下一步 MDM 去噪
    • 设计动机:离散和连续过程交替进行,每步都有更好的全局信号,生成质量更高

训练策略

  • 基于 LLaDA 架构,联合训练 encoder 和 demasker
  • 连续扩散模型在训练好的 latent 空间上单独训练
  • 推理时可选 ConThenDisc(更快)或 ConWithinDisc(更好)

实验关键数据

主实验(无条件文本生成)

方法 生成质量 (PPL↓) 多样性 采样速度(相对)
LLaDA (MDM baseline) 参考 参考
MDLM 中等 中等 ~1×
ConThenDisc 更优 更优 >10×
ConWithinDisc 最优 最优 约 5×

消融实验

配置 生成质量 说明
MDM 无连续条件 基线 标准 MDM
MDM + 连续条件 (CRoCoDiL) 显著提升 连续 latent 提供全局语义
ConThenDisc 速度最快 质量略低于 ConWithinDisc
ConWithinDisc 质量最优 但速度慢于 ConThenDisc

关键发现

  • 连续语义条件对 MDM 生成质量有本质性提升——证实了"离散边缘分布缺乏全局语义"的分析
  • ConThenDisc 的 10× 加速来自于连续扩散采样 latent 后 MDM 只需很少步就能解码(因为全局信息已经在 latent 中了)
  • ConWithinDisc 的交替策略质量更好但加速幅度较小
  • 方法在 LLaDA 上验证,说明对主流 MDM 架构有效

亮点与洞察

  • 连续+离散混合扩散的新范式:不是在连续和离散之间二选一,而是让两者互补——连续做全局语义,离散做精确token选择
  • MDM 作为解码器的新视角:将 MDM 重新理解为"条件扩散解码器",为 latent diffusion 在语言领域的应用开辟了路径
  • 10× 速度提升是实用的:MDM 的采样速度是限制其部署的瓶颈,CRoCoDiL 的加速使 MDM 更接近实用

局限性 / 可改进方向

  • 当前只验证了无条件文本生成,条件生成(如对话、翻译)效果待验证
  • 连续扩散模型本身有训练和采样开销
  • Encoder 需要看到完整输入来生成 latent——对自回归/流式场景不友好
  • 与自回归 LLM 的性能差距仍在——MDM 整体还在追赶

相关工作与启发

  • vs LLaDA/Dream: CRoCoDiL 不替代 MDM,而是增强它——通过连续 latent grounding 提升质量和速度
  • vs Latent Diffusion (图像): Stable Diffusion 在像素→latent 空间做扩散,CRoCoDiL 把类似思想搬到语言领域
  • vs Plaid (连续文本扩散): Plaid 直接在连续空间做文本扩散,CRoCoDiL 更巧妙地结合了连续和离散

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 连续+离散混合扩散的formulation很有创意
  • 实验充分度: ⭐⭐⭐ 只在无条件生成上验证,应用场景有限
  • 写作质量: ⭐⭐⭐⭐ 两种算法(ConThenDisc/ConWithinDisc)的对比讲述清晰
  • 价值: ⭐⭐⭐⭐ 10×加速是实用的,为MDM的改进提供了新路径