CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language¶

日期: 2026-03-02
arXiv: 2603.20210
代码: 无
领域: LLM效率 / 扩散语言模型
关键词: masked diffusion model, continuous latent, sentence-level semantics, hybrid diffusion, MDM

一句话总结¶

CRoCoDiL 将 Masked Diffusion Model（MDM）的扩散过程从离散 token 空间迁移到连续句子级语义空间，通过联合训练 encoder-demasker 架构形成新型自编码器，并提出两种无条件文本生成算法（ConThenDisc 和 ConWithinDisc），在保持生成质量的同时实现超过 10× 的采样加速。

研究背景与动机¶

领域现状：Masked Diffusion Model（MDM）如 LLaDA 和 MDLM 提供了非因果的高效文本生成替代方案。MDM 从全 mask 序列出发，逐步去噪恢复 token，支持并行生成。
现有痛点：MDM 在离散空间做扩散存在两个根本问题：(a) token 依赖性差——每个位置独立采样边缘分布 \(p(x_i|x_t)\)，忽略已去噪 token 之间的依赖；(b) 语义不连贯——离散边缘分布无法表达句子级的语义一致性，导致生成文本有局部正确但全局不通顺的问题
核心矛盾：MDM 要速度（并行去噪）就会牺牲依赖建模（只看局部），要语义一致就要看全局但会变慢
切入角度：将扩散过程从离散 token 空间迁移到连续语义空间——在连续空间中可以更自然地建模全局语义依赖
核心 idea：在连续语句语义空间做扩散 + 用MDM做解码器，形成"连续扩散生latent → 离散MDM解码到token"的混合流程

方法详解¶

整体框架¶

CRoCoDiL 联合训练：(1) Encoder 将 token 序列编码到连续语义 latent 空间；(2) MDM Demasker 以连续 latent 为条件，执行 token 去噪。两者形成新型自编码器：编码用 encoder，解码用 MDM 采样。推理时用连续扩散生成 latent 再用 MDM 解码。

关键设计¶

Encoder-Demasker 联合训练
- 做什么：将 MDM 的去噪过程 grounded 到连续 latent 表示上
- 核心思路：Encoder 接收完整 token 序列，输出连续向量 \(z\)。Demasker 在去噪时以 \(z\) 为额外条件——\(p_\theta(x_0|x_t, z)\)。训练目标同时优化重建损失和扩散去噪损失
- 设计动机：连续 latent \(z\) 跨越了整个句子信息，使每个位置的去噪决策能参考全局语义
ConThenDisc（先连续后离散）
- 做什么：两阶段生成——先在连续空间生成 latent \(z\)，再用 MDM 解码为 token
- 核心思路：训练一个连续扩散模型（如 DDPM）学习 latent 空间的分布。推理时先采样 \(z \sim p(z)\)（连续扩散），再将 \(z\) 送入 Demasker 做 token 去噪
- 设计动机：将全局语义生成（连续扩散）和局部token选择（MDM）解耦，各自发挥优势
ConWithinDisc（连续嵌入离散）
- 做什么：在 MDM 的每步离散采样中，同时在连续空间做一步 latent 精炼
- 核心思路：多扩散策略——每一步 MDM 去噪后，用当前部分去噪的序列更新连续 latent \(z\)（一步连续扩散），再用更好的 \(z\) 指导下一步 MDM 去噪
- 设计动机：离散和连续过程交替进行，每步都有更好的全局信号，生成质量更高

训练策略¶

基于 LLaDA 架构，联合训练 encoder 和 demasker
连续扩散模型在训练好的 latent 空间上单独训练
推理时可选 ConThenDisc（更快）或 ConWithinDisc（更好）

实验关键数据¶

主实验（无条件文本生成）¶

方法	生成质量 (PPL↓)	多样性	采样速度（相对）
LLaDA (MDM baseline)	参考	参考	1×
MDLM	中等	中等	~1×
ConThenDisc	更优	更优	>10×
ConWithinDisc	最优	最优	约 5×

消融实验¶

配置	生成质量	说明
MDM 无连续条件	基线	标准 MDM
MDM + 连续条件 (CRoCoDiL)	显著提升	连续 latent 提供全局语义
ConThenDisc	速度最快	质量略低于 ConWithinDisc
ConWithinDisc	质量最优	但速度慢于 ConThenDisc

关键发现¶

连续语义条件对 MDM 生成质量有本质性提升——证实了"离散边缘分布缺乏全局语义"的分析
ConThenDisc 的 10× 加速来自于连续扩散采样 latent 后 MDM 只需很少步就能解码（因为全局信息已经在 latent 中了）
ConWithinDisc 的交替策略质量更好但加速幅度较小
方法在 LLaDA 上验证，说明对主流 MDM 架构有效

亮点与洞察¶

连续+离散混合扩散的新范式：不是在连续和离散之间二选一，而是让两者互补——连续做全局语义，离散做精确token选择
MDM 作为解码器的新视角：将 MDM 重新理解为"条件扩散解码器"，为 latent diffusion 在语言领域的应用开辟了路径
10× 速度提升是实用的：MDM 的采样速度是限制其部署的瓶颈，CRoCoDiL 的加速使 MDM 更接近实用

局限性 / 可改进方向¶

当前只验证了无条件文本生成，条件生成（如对话、翻译）效果待验证
连续扩散模型本身有训练和采样开销
Encoder 需要看到完整输入来生成 latent——对自回归/流式场景不友好
与自回归 LLM 的性能差距仍在——MDM 整体还在追赶

评分¶

新颖性: ⭐⭐⭐⭐⭐ 连续+离散混合扩散的formulation很有创意
实验充分度: ⭐⭐⭐ 只在无条件生成上验证，应用场景有限
写作质量: ⭐⭐⭐⭐ 两种算法（ConThenDisc/ConWithinDisc）的对比讲述清晰
价值: ⭐⭐⭐⭐ 10×加速是实用的，为MDM的改进提供了新路径