Addressing Text Embedding Leakage in Diffusion-Based Image Editing¶

会议: ICCV 2025
arXiv: N/A (CVF OpenAccess)
代码: https://mtablo.github.io/ALE_Edit_page/
领域: image_generation
关键词: 图像编辑, 属性泄露, 扩散模型, 文本嵌入, 交叉注意力

一句话总结¶

揭示了基于扩散模型的文本图像编辑中属性泄露的根本原因——自回归文本编码器中 EOS 嵌入的语义纠缠，并提出 ALE 框架（ORE + RGB-CAM + BB），从嵌入解耦、注意力遮罩和背景混合三个层面彻底消除属性泄露。

研究背景与动机¶

核心问题¶

基于扩散模型的文本驱动图像编辑（如 Prompt-to-Prompt）使用户可以通过自然语言提示修改图像。然而，现有方法普遍存在属性泄露（Attribute Leakage）问题：对特定目标对象的编辑意外影响了无关区域或其他目标对象。

属性泄露的两种类型¶

目标外泄露（TEL, Target-External Leakage）：编辑目标对象时意外影响非目标区域。例如将"红色甜椒"编辑为"金色苹果"时，旁边的"绿色甜椒"也变成金色

目标内泄露（TIL, Target-Internal Leakage）：多对象编辑时，一个目标对象的属性意外影响另一个目标对象。例如编辑"黄色甜椒→红色南瓜"时，另一个应为"金色苹果"的区域呈现出红色南瓜的混合属性

为什么现有方法解决不了？¶

根本原因分析（本文核心贡献之一）：

问题出在 CLIP 等自回归文本编码器的 EOS（End-of-Sequence）嵌入上。CLIP 将提示填充到固定长度（77 tokens）使用 EOS token，而 EOS 嵌入会不加区分地聚合整个提示中的所有属性和对象的语义信息。

例如编码提示 "a red diamond and a golden apple" 时，EOS 嵌入内含 "diamond"、"golden"、"apple" 的混合语义。在交叉注意力层中，这些 EOS 嵌入会在整张图像上不加区分地激活，导致泄露。

已有方案的不足： - Object-wise embeddings（如 Structured Diffusion）：将提示按名词短语分段独立编码，但只解决了原始 token 间的纠缠，EOS 嵌入的纠缠仍未解决 - End-Token-Substitution (ETS)：用无属性的 EOS 嵌入替换原始 EOS，但简化后的 EOS 仍然聚合了多个对象的语义，泄露依然存在 - 交叉注意力遮罩：限制 EOS 嵌入的空间注意力范围，但 EOS 本质上缺乏空间特异性（它整合了整个提示的内容），因此空间约束无效 - 零向量/空提示替换 EOS：虽然消除了语义纠缠，但严重降低了图像质量和编辑精度——说明扩散模型内在依赖 EOS 嵌入中的语义信息

关键洞察：需要一种策略，既保留 EOS 嵌入的语义内容（保证编辑质量），又防止不同对象属性间的相互影响（消除泄露）。

方法详解¶

整体框架¶

ALE 基于双分支编辑框架（Dual-Branch）+ DDCM 虚拟反演方案： - 源分支（Source Branch）：在源提示 $y_{base}^{src}$ 引导下重建源图像 $x_{src}$，捕获结构和空间信息 - 目标分支（Target Branch）：在目标提示 $y_{base}^{tgt}$ 引导下去噪，生成编辑后的图像 - 结构保持：将源分支的自注意力 Q、K 注入目标分支的对应层

在此基础上引入三个互补组件：ORE（嵌入级解耦）、RGB-CAM（注意力级空间约束）、BB（潜在空间级背景保护）。

关键设计¶

1. DDCM 虚拟反演¶

采用 Denoising Diffusion Consistent Model (DDCM)，其特殊的方差调度使得任意噪声潜变量 $z_\tau$ 在每个时间步都与干净潜变量 $z_0$ 保持闭式关联。这使得： - 无需昂贵的 DDIM/Null-text 反演 - 可以在仅 4-20 步内完成编辑 - 兼容 Latent Consistency Models 的多步一致性采样器

自注意力注入调度 $\mathcal{S}$：控制结构保持的强度。较短的调度仅在早期去噪步骤注入，允许更大幅度的编辑；较长的调度强制更严格的结构保持。

2. Object-Restricted Embeddings (ORE) — 嵌入级解耦¶

核心思想：将每个目标对象的提示独立编码，使每个嵌入矩阵只包含单个对象的语义。

对每个对象提示 $y_i^{tgt}$ 独立编码得到： $$E_i = [e_{BOS}, e_{token_1}, ..., e_{EOS}, ...]$$

例如对 "a red diamond and a golden apple"，$E_1$ 仅从 "a red diamond" 编码而来，$E_2$ 仅从 "a golden apple" 编码。

同时构造基础嵌入 $E_{base}$：编码完整提示 $y_{base}^{tgt}$，并将各对象 $E_i$ 对应的 span 拼接回去。

为什么 ORE 能解决 EOS 纠缠问题？ 因为 $E_i$ 中的 EOS 嵌入只包含 $y_i^{tgt}$ 单个对象的语义信息，不会聚合其他对象的属性。后续交叉注意力接收到的是语义上完全解耦的嵌入——从源头上消除泄露。

3. RGB-CAM (Region-Guided Blending for Cross-Attention Masking) — 注意力级空间约束¶

问题：标准交叉注意力层只接受单个 value 张量 $V$，无法利用多个 ORE。

解决方案：用空间混合的张量替代 vanilla 交叉注意力输出： $$A = \sum_{i=1}^{K} (M \odot m_i) V_i + (M \odot m_{back}) V_{base}$$

其中： - $M$ 是基于 $Q, K$ 的基础交叉注意力图 - $V_i = W_v(E_i)$ 是第 $i$ 个对象的 value 张量 - $\{m_i\}$ 和 $m_{back}$ 是由 Grounded-SAM 生成的目标对象和背景分割遮罩 - 遮罩经过轻微膨胀以处理边界不精确的问题

空间精确性：$(M \odot m_i) V_i$ 将每个 ORE 限制在其指定区域，消除 TIL；背景项保护非编辑区域。

关键：ORE 和 RGB-CAM 必须联合使用才能产生无泄露的结果——单独使用任一组件都不够。

4. Background Blending (BB) — 潜在空间级背景保护¶

即使有完美的交叉注意力控制，背景仍然脆弱，因为 $\{y_i^{tgt}\}$ 只描述目标对象。在每个时间步 $\tau$，用背景遮罩混合源潜变量： $$z_\tau^{tgt} = m_{back} \odot z_\tau^{src} + (1 - m_{back}) \odot z_\tau^{tgt}$$

BB 保证非编辑区域的保真度，抑制 TEL，无需像先前方法（如 P2P）那样进行昂贵的阈值调优。

损失函数 / 训练策略¶

ALE 是一个 tuning-free 框架——无需额外训练或微调！整个过程是推理时的编辑流程：

预处理：解析提示、编码 ORE、使用 Grounded-SAM 获取分割遮罩
初始化：采样初始噪声 $z_T^{src}$，设置 $z_T^{tgt} = z_T^{src}$
从 $T$ 到 1 迭代：源分支预测噪声→目标分支（含 RGB-CAM）预测噪声→BB 混合潜变量
解码 $z_0^{tgt}$ 得到编辑图像

推理步数仅需 4-20 步（得益于 DDCM），计算高效。

实验关键数据¶

主实验¶

在 ALE-Bench 上的对比：

方法	TELS↓	TILS↓	Structure Distance↓	Editing Performance↑	PSNR↑	SSIM↑
P2P	21.52	17.26	0.1514	20.67	11.15	0.5589
MasaCtrl	20.18	16.74	0.0929	20.01	14.99	0.7346
FPE	21.07	17.38	0.1164	21.89	12.82	0.6052
InfEdit	19.59	16.69	0.0484	21.78	16.74	0.7709
ALE	16.03	15.28	0.0167	22.20	30.04	0.9228

ALE 在所有指标上全面领先：TEL 降低 3.56（vs InfEdit），PSNR 提高 13.3dB，SSIM 从 0.77 提升到 0.92。

消融实验¶

按编辑对象数量分析：

编辑对象数	TELS↓	TILS↓	Editing Perf↑	PSNR↑	SSIM↑
1	16.41	-	22.62	30.01	0.9049
2	16.00	15.42	22.06	30.06	0.9235
3	15.89	15.36	22.19	30.01	0.9426

按编辑类型分析：

编辑类型	TELS↓	TILS↓	Editing Perf↑	PSNR↑
Color	17.63	16.21	23.12	32.97
Material	17.15	15.96	22.94	30.63
Object	15.86	16.25	21.82	29.03
Color+Object	15.30	14.01	22.15	28.60
Object+Material	14.55	14.51	21.42	28.88

关键发现¶

多对象编辑性能稳定：随着编辑对象数从 1 增加到 3，ALE 的泄露指标和背景保留质量保持稳定甚至略有改善（SSIM 从 0.90 提升到 0.94）
复合编辑类型更具挑战性：Color+Object 和 Object+Material 的编辑性能略低于单一类型编辑，但泄露指标反而更低
颜色编辑最容易泄露但也最容易编辑：TELS=17.63 最高，但 Editing Performance=23.12 也最高
PSNR 领先幅度惊人：ALE 的 PSNR = 30.04 远超第二名 InfEdit 的 16.74，说明背景保留极为出色
结构保持极优：Structure Distance = 0.0167，仅为 InfEdit (0.0484) 的三分之一

亮点与洞察¶

从源头解决问题：不是在表层修补（如调整注意力遮罩），而是深入分析到 EOS 嵌入的语义纠缠这个根本原因，并设计针对性解决方案
三组件互补设计精巧：ORE 解决嵌入级纠缠，RGB-CAM 解决注意力级空间问题，BB 解决潜在空间级背景问题——三个层面缺一不可
提出了完整的评估体系：ALE-Bench + TELS/TILS 指标，填补了多对象编辑评估的空白
Tuning-free：无需任何额外训练/微调，直接在预训练模型上运行，通用性强
高效推理：DDCM 虚拟反演仅需 4-20 步，避免了 DDIM 反演的计算开销
EOS 嵌入的处理哲学：不能简单删除（破坏质量），也不能简单替换（仍有纠缠），而是要从源头隔离——这个洞察具有普遍意义

局限与展望¶

仅限刚性编辑：当前框架仅支持颜色、物体、材质等局部编辑，不支持风格迁移、姿态变化、添加/删除对象等非刚性变换
Benchmark 规模有限：ALE-Bench 只有 20 张精心策划的源图像（共 3000 个编辑场景），图像多样性有限
依赖分割模型：RGB-CAM 需要 Grounded-SAM 提供分割遮罩，分割质量直接影响编辑质量
最多支持 K=3 对象：当前只针对最多 3 个对象的多对象编辑进行了验证
仅针对 CLIP 编码器：分析主要基于 CLIP 的自回归文本编码器，对 T5 等双向编码器的 EOS 问题未讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ （EOS 纠缠问题的深入分析极具洞察力，ORE+RGB-CAM+BB 三组件设计优雅）
实验充分度: ⭐⭐⭐⭐ （提出了完整 Benchmark，但源图像数量较少）
写作质量: ⭐⭐⭐⭐⭐ （问题分析透彻，可视化丰富，概念定义清晰）
价值: ⭐⭐⭐⭐⭐ （解决了多对象编辑的关键痛点，tuning-free 易于实用化）