EdiText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models¶
会议: ACL 2025
arXiv: 2502.19765
代码: 无
领域: 文本生成
关键词: 文本编辑, 嵌入扩散模型, SDEdit, 自条件化, 可控生成
一句话总结¶
提出 EdiText,基于嵌入扩散模型(LD4LG)的可控文本编辑框架,通过将 SDEdit 技术从图像域迁移到文本域实现粗粒度编辑(控制加噪时间步),并创新性地利用自条件化(self-conditioning)机制实现细粒度编辑(将参考文本嵌入注入为去噪条件),两者结合实现从粗到细的多粒度文本属性编辑。
研究背景与动机¶
- 领域现状:文本编辑需要在保留参考文本内容的同时改变特定属性(如毒性→无毒、消极→积极)。AR 模型虽然生成质量高但不适合编辑,NAR 模型更适合控制但缺乏编辑程度的精细调节。
- 现有痛点:现有文本编辑方法要么无法控制编辑程度(改多改少不可控),要么仅限于微观调整,缺乏从粗到细的多尺度编辑能力。图像领域的 SDEdit 等扩散编辑技术在文本领域未被充分利用。
- 核心 idea:将图像 SDEdit 和 self-conditioning 两种扩散模型技术创造性地应用于文本编辑——SDEdit 的不同加噪时间步控制全局编辑强度,self-conditioning 中将参考文本嵌入替代模型预测作为条件实现局部细粒度编辑。
方法详解¶
关键设计¶
- 粗粒度编辑(Coarse-Level, SDEdit 风格):
- 将参考文本编码为连续嵌入 \(x_0 = E(w_{ref})\)
- 加噪到中间时间步 \(t_{CE}\):\(x_{t_{CE}} = \sqrt{\alpha_{t_{CE}}} x_0 + \sqrt{1-\alpha_{t_{CE}}} \epsilon\)
- 从 \(t_{CE}\) 开始用目标属性条件去噪→\(t_{CE}\) 越大→改动越大
-
优势:通过调节 \(t_{CE}\) 简单控制全局编辑幅度
-
细粒度编辑(Fine-Level, Self-Conditioning 重解读):
- 从纯噪声开始去噪(\(x_T \sim \mathcal{N}(0, I)\)),但在高时间步(\(t_{FE} \leq t \leq T\))将 self-conditioning 的条件从模型预测替换为参考文本嵌入 \(E(w_{ref})\)
- \(t_{FE}\) 越大→更多时间步使用参考文本作为条件→编辑幅度越小
-
优势:在不修改模型的前提下实现精细的编辑程度控制
-
粗+细整合:SDEdit 确定大致编辑范围,self-conditioning 在该范围内做精确调整
骨干模型¶
- LD4LG(Latent Diffusion for Language Generation):语言自编码器 + 嵌入空间扩散
- 编码器:Perceiver Resampler 压缩变长文本为固定长度连续表示
- 解码器:自回归从连续表示还原文本
实验关键数据¶
毒性控制(将有毒文本编辑为无毒)¶
| 方法 | Hamming ↓ | BERTScore ↑ | Toxicity (Moderation) ↓ |
|---|---|---|---|
| Reference (toxic) | 0.000 | 100.0 | 高 |
| ParaGuide | 较高 | 较低 | 中等 |
| EdiText (Coarse) | 中等 | 中等 | 低 |
| EdiText (Combined) | 可调 | 可调 | 最低 |
EdiText 在保持文本语义的同时更有效地降低毒性,且编辑程度可控。
关键发现¶
- 粗粒度编辑的 \(t_{CE}\) 和细粒度编辑的 \(t_{FE}\) 提供了两个独立的编辑控制维度
- 两种编辑技术的组合覆盖了从微调到大幅重写的完整编辑谱
- 与 ParaGuide(基于 classifier guidance 的方法)相比,EdiText 的编辑范围更广
- Self-conditioning 的重解读——将参考文本嵌入作为条件——是一种优雅且零训练成本的编辑技术
亮点与洞察¶
- SDEdit 到文本域的跨模态迁移首次被系统化地实现,利用了嵌入扩散模型将离散文本映射到连续空间的特性
- Self-conditioning 的创造性重用:原本用于提升生成质量的技术,被重新解释为一种编辑控制机制——用参考文本嵌入替代上一步预测作为条件
- 两种技术的正交性使得编辑空间为二维可控(\(t_{CE}\) × \(t_{FE}\)),覆盖从几乎不变到完全重写的范围
局限性 / 可改进方向¶
- 嵌入扩散模型的文本质量仍不及 AR LLM
- 编辑粒度仅能控制全局/局部"改多少",无法指定"改哪里"
- 仅在毒性控制和情感控制上验证
评分¶
- 新颖性: ⭐⭐⭐⭐ Self-conditioning 重解读为编辑控制的思路有巧妙之处
- 实验充分度: ⭐⭐⭐ 任务类型偏少,仅两个属性编辑任务
- 写作质量: ⭐⭐⭐⭐ 算法伪代码清晰,框架图简洁
- 价值: ⭐⭐⭐⭐ 为扩散文本编辑提供了实用的多粒度控制方案