EdiText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models¶

会议: ACL 2025
arXiv: 2502.19765
代码: 无
领域: 文本生成
关键词: 文本编辑, 嵌入扩散模型, SDEdit, 自条件化, 可控生成

一句话总结¶

提出 EdiText，基于嵌入扩散模型（LD4LG）的可控文本编辑框架，通过将 SDEdit 技术从图像域迁移到文本域实现粗粒度编辑（控制加噪时间步），并创新性地利用自条件化（self-conditioning）机制实现细粒度编辑（将参考文本嵌入注入为去噪条件），两者结合实现从粗到细的多粒度文本属性编辑。

研究背景与动机¶

领域现状：文本编辑需要在保留参考文本内容的同时改变特定属性（如毒性→无毒、消极→积极）。AR 模型虽然生成质量高但不适合编辑，NAR 模型更适合控制但缺乏编辑程度的精细调节。
现有痛点：现有文本编辑方法要么无法控制编辑程度（改多改少不可控），要么仅限于微观调整，缺乏从粗到细的多尺度编辑能力。图像领域的 SDEdit 等扩散编辑技术在文本领域未被充分利用。
核心 idea：将图像 SDEdit 和 self-conditioning 两种扩散模型技术创造性地应用于文本编辑——SDEdit 的不同加噪时间步控制全局编辑强度，self-conditioning 中将参考文本嵌入替代模型预测作为条件实现局部细粒度编辑。

方法详解¶

关键设计¶

粗粒度编辑（Coarse-Level, SDEdit 风格）:
将参考文本编码为连续嵌入 \(x_0 = E(w_{ref})\)
加噪到中间时间步 \(t_{CE}\)：\(x_{t_{CE}} = \sqrt{\alpha_{t_{CE}}} x_0 + \sqrt{1-\alpha_{t_{CE}}} \epsilon\)
从 \(t_{CE}\) 开始用目标属性条件去噪→\(t_{CE}\) 越大→改动越大
优势：通过调节 \(t_{CE}\) 简单控制全局编辑幅度
细粒度编辑（Fine-Level, Self-Conditioning 重解读）:
从纯噪声开始去噪（\(x_T \sim \mathcal{N}(0, I)\)），但在高时间步（\(t_{FE} \leq t \leq T\)）将 self-conditioning 的条件从模型预测替换为参考文本嵌入 \(E(w_{ref})\)
\(t_{FE}\) 越大→更多时间步使用参考文本作为条件→编辑幅度越小
优势：在不修改模型的前提下实现精细的编辑程度控制
粗+细整合：SDEdit 确定大致编辑范围，self-conditioning 在该范围内做精确调整

骨干模型¶

LD4LG（Latent Diffusion for Language Generation）：语言自编码器 + 嵌入空间扩散
编码器：Perceiver Resampler 压缩变长文本为固定长度连续表示
解码器：自回归从连续表示还原文本

实验关键数据¶

毒性控制（将有毒文本编辑为无毒）¶

方法	Hamming ↓	BERTScore ↑	Toxicity (Moderation) ↓
Reference (toxic)	0.000	100.0	高
ParaGuide	较高	较低	中等
EdiText (Coarse)	中等	中等	低
EdiText (Combined)	可调	可调	最低

EdiText 在保持文本语义的同时更有效地降低毒性，且编辑程度可控。

关键发现¶

粗粒度编辑的 \(t_{CE}\) 和细粒度编辑的 \(t_{FE}\) 提供了两个独立的编辑控制维度
两种编辑技术的组合覆盖了从微调到大幅重写的完整编辑谱
与 ParaGuide（基于 classifier guidance 的方法）相比，EdiText 的编辑范围更广
Self-conditioning 的重解读——将参考文本嵌入作为条件——是一种优雅且零训练成本的编辑技术

亮点与洞察¶

SDEdit 到文本域的跨模态迁移首次被系统化地实现，利用了嵌入扩散模型将离散文本映射到连续空间的特性
Self-conditioning 的创造性重用：原本用于提升生成质量的技术，被重新解释为一种编辑控制机制——用参考文本嵌入替代上一步预测作为条件
两种技术的正交性使得编辑空间为二维可控（\(t_{CE}\) × \(t_{FE}\)），覆盖从几乎不变到完全重写的范围

局限性 / 可改进方向¶

嵌入扩散模型的文本质量仍不及 AR LLM
编辑粒度仅能控制全局/局部"改多少"，无法指定"改哪里"
仅在毒性控制和情感控制上验证

评分¶

新颖性: ⭐⭐⭐⭐ Self-conditioning 重解读为编辑控制的思路有巧妙之处
实验充分度: ⭐⭐⭐ 任务类型偏少，仅两个属性编辑任务
写作质量: ⭐⭐⭐⭐ 算法伪代码清晰，框架图简洁
价值: ⭐⭐⭐⭐ 为扩散文本编辑提供了实用的多粒度控制方案