跳转至

DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models

会议: ACL 2025
arXiv: 2411.03250
代码: 无
领域: LLM/NLP
关键词: diffusion model, synthetic data, controllable generation, text generation, data augmentation

一句话总结

提出 DiffLM,将扩散模型应用于文本合成数据生成,通过引导函数实现对生成文本属性的精细控制,在多个下游任务上生成的合成数据质量超越 GPT-4 和传统增强方法。

研究背景与动机

  1. 领域现状:合成数据生成是缓解标注数据不足的重要方法,LLM 是当前主流合成数据生成工具。
  2. 现有痛点:LLM 生成的合成数据缺乏精细的属性控制(如情感极性、文本长度、风格等),且容易生成低多样性的数据。
  3. 核心矛盾:如何在保证文本质量的同时,实现对多种属性的独立和联合控制?
  4. 本文要解决什么? 用扩散模型替代 LLM 做可控合成数据生成。
  5. 切入角度:扩散模型的去噪过程天然支持引导(guidance),可以在生成过程中注入属性控制信号。
  6. 核心idea一句话:用文本扩散模型+分类器引导实现多属性可控的高质量合成数据生成。

方法详解

整体框架

训练文本扩散模型 -> 训练属性分类器(轻量级)-> 在去噪过程中通过分类器梯度引导生成方向 -> 输出满足指定属性的合成文本。

关键设计

  1. 文本扩散模型
  2. 在连续嵌入空间中进行前向加噪和反向去噪
  3. 使用 Transformer 作为去噪网络
  4. 设计动机:连续空间中梯度引导比离散空间更自然

  5. 分类器引导 (Classifier Guidance)

  6. 训练轻量级属性分类器(如情感、主题、毒性分类器)
  7. 去噪每步用分类器梯度调整生成方向
  8. 支持多属性联合控制(多个分类器梯度叠加)
  9. 设计动机:解耦生成质量和属性控制

  10. 去噪过程优化

  11. 自适应引导强度(去噪早期强引导,后期弱引导)
  12. 设计动机:早期确定方向,后期保证流畅性

实验关键数据

主实验 -- 合成数据作为训练数据的下游任务提升

数据源 情感分类 Acc 文本蕴含 Acc 主题分类 Acc
无增强 基线 基线 基线
GPT-4 增强 +3% +2% +2.5%
DiffLM 增强 +5% +4% +4.5%

可控性评估

方法 属性一致率 文本质量 (PPL) 多样性
GPT-4 (prompt) 75%
CTRL 82%
DiffLM 92%

关键发现

  • DiffLM 属性控制精度远超 LLM prompting(92% vs 75%)
  • 合成数据质量超越 GPT-4 生成:对下游任务的提升更大
  • 多属性联合控制有效:同时控制情感+长度+主题
  • 文本多样性更高:扩散模型的随机性天然增加多样性

亮点与洞察

  • 扩散模型在文本生成中的可控性优势首次在合成数据场景被系统验证
  • 分类器引导解耦了质量和控制——不需要重新训练模型即可添加新属性控制

局限性 / 可改进方向

  • 文本扩散模型的生成速度慢于自回归 LLM
  • 连续空间到离散文本的映射仍有信息损失
  • 改进方向:加速采样、更大规模预训练、与 LLM 结合

相关工作与启发

  • vs GPT-4 prompting:DiffLM 可控性更好但速度更慢
  • vs CTRL/PPLM:DiffLM 不需要在生成模型中嵌入控制信号

评分

  • 新颖性: ⭐⭐⭐⭐ 扩散模型+合成数据生成的结合有创新
  • 实验充分度: ⭐⭐⭐⭐ 多任务多维度评估
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对数据增强有实际应用价值