ALE: Attribute-Leakage-free Editing for Text-based Image Editing¶

vs Prompt-to-Prompt (P2P): P2P通过交叉注意力对齐来编辑，但无法解决EOS纠缠导致的属性泄漏。
vs MasaCtrl: MasaCtrl做自注意力替换但不处理跨目标干扰，ALE的ORE从源头解决语义纠缠。
vs InstructPix2Pix: 基于训练的方法，不需要反转但也不能精确控制多目标场景。

会议: ICCV 2025
arXiv: 2412.04715
代码: https://mtablo.github.io/ALE_Edit_page/
领域: 图像生成
关键词: 文本引导图像编辑, 属性泄漏, EOS嵌入, 跨注意力遮蔽, 多目标编辑

一句话总结¶

揭示文本引导图像编辑中属性泄漏的根本原因是自回归文本编码器中 EOS 嵌入的语义纠缠，提出 ALE 框架通过目标受限嵌入(ORE)、区域引导交叉注意力遮蔽(RGB-CAM)和背景融合(BB)三个组件消除属性泄漏，并构建了专门的 ALE-Bench 评测基准。

领域现状：文本引导的图像编辑通过自然语言实现图像修改，但多目标编辑时经常出现属性泄漏。

现有痛点：属性泄漏分为两类——目标外泄漏(TEL，编辑溢出到非目标区域)和目标内泄漏(TIL，不同目标间属性互相干扰)。现有方法（如交叉注意力对齐）无法根治。

核心矛盾：CLIP等自回归编码器的EOS嵌入不可避免地聚合了所有token的语义，导致在交叉注意力中EOS嵌入无差别地关注所有区域。简单删除EOS嵌入又会严重降低图像质量。

核心 idea：为每个编辑目标生成独立的语义隔离嵌入(ORE)，并通过分割mask限制注意力范围(RGB-CAM)，同时融合背景保持完整性(BB)。

方法	TELS↓	TILS↓	编辑质量
MasaCtrl	高	高	中
P2P+ETS	中	中	中
ALE（本文）	最低	最低	最高

方法	TELS↓	TILS↓	FID↓	CLIP-Sim↑
P2P	0.42	0.38	24.5	0.28
MasaCtrl	0.45	0.41	22.1	0.30
P2P+ETS	0.31	0.29	23.8	0.29
ALE	0.12	0.11	19.3	0.33