跳转至

EdiText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models

会议: ACL 2025
arXiv: 2502.19765
代码: 无
领域: 文本生成
关键词: 文本编辑, 嵌入扩散模型, SDEdit, 自条件化, 可控生成

一句话总结

提出 EdiText,基于嵌入扩散模型(LD4LG)的可控文本编辑框架,通过将 SDEdit 技术从图像域迁移到文本域实现粗粒度编辑(控制加噪时间步),并创新性地利用自条件化(self-conditioning)机制实现细粒度编辑(将参考文本嵌入注入为去噪条件),两者结合实现从粗到细的多粒度文本属性编辑。

研究背景与动机

  1. 领域现状:文本编辑需要在保留参考文本内容的同时改变特定属性(如毒性→无毒、消极→积极)。AR 模型虽然生成质量高但不适合编辑,NAR 模型更适合控制但缺乏编辑程度的精细调节。
  2. 现有痛点:现有文本编辑方法要么无法控制编辑程度(改多改少不可控),要么仅限于微观调整,缺乏从粗到细的多尺度编辑能力。图像领域的 SDEdit 等扩散编辑技术在文本领域未被充分利用。
  3. 核心 idea:将图像 SDEdit 和 self-conditioning 两种扩散模型技术创造性地应用于文本编辑——SDEdit 的不同加噪时间步控制全局编辑强度,self-conditioning 中将参考文本嵌入替代模型预测作为条件实现局部细粒度编辑。

方法详解

关键设计

  1. 粗粒度编辑(Coarse-Level, SDEdit 风格):
  2. 将参考文本编码为连续嵌入 \(x_0 = E(w_{ref})\)
  3. 加噪到中间时间步 \(t_{CE}\)\(x_{t_{CE}} = \sqrt{\alpha_{t_{CE}}} x_0 + \sqrt{1-\alpha_{t_{CE}}} \epsilon\)
  4. \(t_{CE}\) 开始用目标属性条件去噪→\(t_{CE}\) 越大→改动越大
  5. 优势:通过调节 \(t_{CE}\) 简单控制全局编辑幅度

  6. 细粒度编辑(Fine-Level, Self-Conditioning 重解读):

  7. 从纯噪声开始去噪(\(x_T \sim \mathcal{N}(0, I)\)),但在高时间步(\(t_{FE} \leq t \leq T\))将 self-conditioning 的条件从模型预测替换为参考文本嵌入 \(E(w_{ref})\)
  8. \(t_{FE}\) 越大→更多时间步使用参考文本作为条件→编辑幅度越小
  9. 优势:在不修改模型的前提下实现精细的编辑程度控制

  10. 粗+细整合:SDEdit 确定大致编辑范围,self-conditioning 在该范围内做精确调整

骨干模型

  • LD4LG(Latent Diffusion for Language Generation):语言自编码器 + 嵌入空间扩散
  • 编码器:Perceiver Resampler 压缩变长文本为固定长度连续表示
  • 解码器:自回归从连续表示还原文本

实验关键数据

毒性控制(将有毒文本编辑为无毒)

方法 Hamming ↓ BERTScore ↑ Toxicity (Moderation) ↓
Reference (toxic) 0.000 100.0
ParaGuide 较高 较低 中等
EdiText (Coarse) 中等 中等
EdiText (Combined) 可调 可调 最低

EdiText 在保持文本语义的同时更有效地降低毒性,且编辑程度可控。

关键发现

  • 粗粒度编辑的 \(t_{CE}\) 和细粒度编辑的 \(t_{FE}\) 提供了两个独立的编辑控制维度
  • 两种编辑技术的组合覆盖了从微调到大幅重写的完整编辑谱
  • 与 ParaGuide(基于 classifier guidance 的方法)相比,EdiText 的编辑范围更广
  • Self-conditioning 的重解读——将参考文本嵌入作为条件——是一种优雅且零训练成本的编辑技术

亮点与洞察

  • SDEdit 到文本域的跨模态迁移首次被系统化地实现,利用了嵌入扩散模型将离散文本映射到连续空间的特性
  • Self-conditioning 的创造性重用:原本用于提升生成质量的技术,被重新解释为一种编辑控制机制——用参考文本嵌入替代上一步预测作为条件
  • 两种技术的正交性使得编辑空间为二维可控(\(t_{CE}\) × \(t_{FE}\)),覆盖从几乎不变到完全重写的范围

局限性 / 可改进方向

  • 嵌入扩散模型的文本质量仍不及 AR LLM
  • 编辑粒度仅能控制全局/局部"改多少",无法指定"改哪里"
  • 仅在毒性控制和情感控制上验证

评分

  • 新颖性: ⭐⭐⭐⭐ Self-conditioning 重解读为编辑控制的思路有巧妙之处
  • 实验充分度: ⭐⭐⭐ 任务类型偏少,仅两个属性编辑任务
  • 写作质量: ⭐⭐⭐⭐ 算法伪代码清晰,框架图简洁
  • 价值: ⭐⭐⭐⭐ 为扩散文本编辑提供了实用的多粒度控制方案