Addressing Text Embedding Leakage in Diffusion-based Image Editing¶

会议: ICCV 2025
arXiv: 无
代码: GitHub
领域: 图像编辑 / 扩散模型
关键词: attribute leakage, diffusion image editing, EOS embedding, cross-attention masking, multi-object editing

一句话总结¶

提出ALE框架，通过对象限制嵌入(ORE)解耦EOS token的语义纠缠、区域引导混合交叉注意力掩码(RGB-CAM)约束空间注意力、背景混合(BB)保留未编辑区域，系统性解决扩散模型文本图像编辑中的属性泄漏问题，并建立了ALE-Bench评估基准。

研究背景与动机¶

基于扩散模型的文本图像编辑虽然进步显著，但仍面临严重的属性泄漏(attribute leakage)问题：编辑目标对象时意外影响了不相关区域。作者将泄漏分为两类：(1) 目标外泄漏(TEL)——目标对象的属性影响非目标区域；(2) 目标内泄漏(TIL)——一个目标对象的属性影响另一个目标对象。根本原因在于自回归文本编码器（如CLIP）的EOS(End-of-Sequence) token不加区分地聚合了提示中所有token的信息，导致通过cross-attention层时属性在空间上无差别扩散。现有方法试图通过操纵注意力图来约束编辑效果，但未从根源解决EOS嵌入纠缠问题。

方法详解¶

整体框架¶

ALE是一个无需微调(tuning-free)的图像编辑框架，基于双分支(dual-branch)扩散模型架构。框架由三个互补组件组成：ORE处理文本嵌入层面的纠缠，RGB-CAM处理空间注意力层面的泄漏，BB处理背景保护。三者缺一不可——单独使用BB只能防TEL不能防TIL，单独使用ORE+RGB-CAM能减少TIL但不能保护背景。

关键设计¶

对象限制嵌入(ORE): 为提示中的每个目标对象分配独立的、语义隔离的文本嵌入，避免不同对象属性在EOS token中混合。具体做法是对每个对象单独运行文本编码器生成嵌入，而非将所有对象放在同一提示中，从根源切断EOS token的语义纠缠。
区域引导混合交叉注意力掩码(RGB-CAM): 利用分割掩码约束cross-attention，使每个对象的注意力仅限于其指定区域。通过将分割掩码与注意力图混合，防止属性在空间上的不当扩散，实现精确的区域级编辑。
背景混合(BB): 通过将源图像的latent与编辑后的latent在非编辑区域进行混合，保留非目标区域的结构完整性和外观一致性，有效防止目标外泄漏。

损失函数 / 训练策略¶

ALE是无需训练的方法，直接在推理阶段通过修改扩散采样过程实现。支持Prompt-to-Prompt等现有编辑管线作为基础架构。

实验关键数据¶

主实验¶

方法	TELS↓	TILS↓	Structure Dist↓	PSNR↑	SSIM↑
P2P	21.52	17.26	0.1514	11.15	0.5589
MasaCtrl	20.18	16.74	0.0929	14.99	0.7346
InfEdit	19.59	16.69	0.0484	16.74	0.7709
ALE	16.03	15.28	0.0167	30.04	0.9228

ALE在所有指标上大幅领先，PSNR从次优的16.74提升到30.04，SSIM从0.77提升到0.92。

消融实验¶

BB单独使用：解决TEL但无法解决TIL
ORE + RGB-CAM：减少TIL但无法保护背景(TEL仍存在)
完整ALE(BB + ORE + RGB-CAM)：同时消除TEL和TIL
不同编辑对象数(1/2/3)和编辑类型(颜色/材质/物体)下均保持稳健

关键发现¶

EOS token是属性泄漏的根本原因，而非仅仅是注意力图问题
多对象编辑比单对象编辑更容易出现泄漏，但ALE在3对象编辑时性能甚至优于1对象
组合编辑类型(如颜色+物体)的泄漏最严重，ALE仍能有效控制

亮点与洞察¶

问题分析深入——准确定位EOS嵌入纠缠为属性泄漏的根本原因
ALE-Bench评估基准和TELS/TILS指标填补了多对象编辑评估的空白
无需训练的方法，可以即插即用到各种基于扩散模型的编辑框架中
背景保护效果极其优秀(PSNR 30.04 vs 16.74)

局限与展望¶

目前仅支持局部、相对简单的变换（颜色/材质/物体替换），不支持风格迁移、姿态变化等非刚性变换
ALE-Bench仅包含20张精心挑选的图像，泛化性有待验证
需要分割掩码作为输入（RGB-CAM依赖），增加了使用门槛
编辑时需对每个对象单独编码（ORE），多对象时计算开销线性增长

评分¶

新颖性: ⭐⭐⭐⭐ — 对EOS嵌入泄漏的分析深刻且原创
技术深度: ⭐⭐⭐⭐ — 三组件互补设计逻辑严密
实验充分性: ⭐⭐⭐⭐ — 新基准+新指标+全面对比+消融
写作质量: ⭐⭐⭐⭐⭐ — 问题定义清晰，可视化出色
实用价值: ⭐⭐⭐⭐ — 无需训练，直接可用，效果显著