Improving Editability in Image Generation with Layer-wise Memory¶

会议: CVPR 2025
arXiv: 2505.01079
代码: 无
领域: 扩散模型
关键词: 图像编辑, 迭代生成, 层级记忆, 注意力解耦, 扩散模型

一句话总结¶

本文提出基于层级记忆的迭代图像编辑框架，通过存储每步编辑的 latent 和 prompt embedding，结合背景一致性引导（BCG）和多查询解耦注意力（MQD），实现多步顺序编辑中背景保持一致且新对象自然融入的效果。

研究背景与动机¶

领域现状：文本到图像生成（如 Stable Diffusion、PixArt-α、FLUX）已非常成熟，但实际编辑场景通常需要多步顺序修改——用户迭代地添加、修改场景中的多个对象。现有编辑方法（HD-Painter、Blended Latent Diffusion）主要针对单对象单次修改设计。

现有痛点：（1）单次编辑方法在多步顺序编辑中表现差，难以保持之前编辑的一致性；（2）需要精确的分割掩码或外部模块维护背景完整性；（3）布局到图像方法（Bounding Box/深度图指导）每次修改都重新生成整张图，无法保持已编辑的上下文；（4）遮挡关系处理困难，如在已有对象前放置新对象。

核心矛盾：迭代编辑需要同时满足两个冲突目标——保持之前编辑的稳定性（不改变已有内容）和新对象的自然融入（需要上下文感知的适应性生成）。

本文目标 （1）如何用粗糙掩码实现对象放置并保持背景？（2）如何在多步编辑中维护一致性？（3）如何处理 mask order（遮挡关系）？

切入角度：作者引入 mask order 概念来指定对象的生成顺序（即图层深度关系），并设计记忆机制存储编辑历史。关键观察是每步编辑的 latent 和 prompt 信息可以被复用，避免重复前向传播并保持一致性。

核心 idea：用层级记忆存储编辑历史、背景一致性引导复用 latent 保持背景、多查询解耦注意力处理遮挡关系实现自然融入。

方法详解¶

整体框架¶

基于 PixArt-α（DiT 架构的扩散模型）构建，无需额外训练。用户提供背景 prompt + 依次添加的对象 prompt 和粗糙掩码。每步编辑时，Layer-wise Memory 存储当前步的 latent、prompt embedding 和 mask。BCG 从记忆中检索上一步的 latent 进行背景区域的 blending。MQD 在 cross-attention 中解耦当前对象和历史对象的查询，处理遮挡关系。

关键设计¶

层级记忆（Layer-wise Memory）:
- 功能：存储每个编辑步骤的完整信息以支持后续编辑的上下文保持
- 核心思路：定义记忆集合 \(L_l = \{l_0, l_1, l_2, ...\}\)，每个元素 \(l_i = \{\mathbf{p}_i, \{\mathbf{Z}_i^t\}_{t=1}^T, m_i\}\) 包含三项：prompt embedding、所有去噪步骤的 latent 序列、掩码。背景生成时 \(m_0\) 为全 1 掩码，后续每个对象有独立的 mask 定义 RoI。新对象的 latent 独立初始化后与记忆中的历史 latent 通过 BCG 混合。
- 设计动机：存储完整的去噪轨迹（而非仅最终结果）使得后续编辑可以在任意去噪步骤进行精确的 latent blending，避免了传统方法每次都需要对原图做前向传播的开销。
背景一致性引导（BCG）:
- 功能：高效保持未编辑区域的稳定性
- 核心思路：在每个去噪步骤 \(t\)，仅更新掩码内区域，掩码外直接从记忆中检索上一步的 latent：\(\mathbf{Z}_i = \mathbf{Z}_{i-1} \odot (1-m_i) + \mathbf{Z}_i \odot m_i\)。由于 latent 直接从记忆取出，无需对原图做额外的前向传播（forward pass），相比传统 latent blending 省去了 \(C_f\) 的计算开销。
- 设计动机：传统 inpainting 方法（如 BLD）每次编辑都需要对原图做前向传播得到背景 latent，在多步编辑中成本倍增。BCG 实测省约 10% 单步时间，多步编辑中优势更大。
多查询解耦交叉注意力（MQD）:
- 功能：确保新对象在不同 mask order 下自然融入，正确处理遮挡关系
- 核心思路：在 cross-attention 层中，对当前对象的 RoI 区域用当前 prompt 做注意力；对之前各步的非重叠区域分别用对应的历史 prompt 做注意力：\(\mathbf{z}_i^{attn} = \bigcup_{j=0}^{i-1} \text{CrossAttention}(\mathbf{z}_i^{k,t} \odot (m_j - \Sigma_{l=j+1}^i m_l), p_j)\)。最后合并所有注意力结果。关键在于 \(m_j - \Sigma_{l=j+1}^i m_l\) 确保后面添加的对象遮挡前面的对象。
- 设计动机：标准 cross-attention 无法区分不同 mask order 对应的语义区域。MQD 让每个区域只关注对应的 prompt，避免了语义混乱，同时通过掩码减法实现了自然的遮挡关系。

损失函数 / 训练策略¶

本方法为 training-free pipeline，使用预训练的 PixArt-α 模型（XL-1024），DPM-Solver 采样，引导尺度 7.5，总去噪步数 20。对象删除功能通过从中间步骤 \(\tau\) 开始混合两个历史 latent 实现（\(\tau = 8\)，节省 60% 时间）。

实验关键数据¶

主实验¶

类型	方法	分辨率	BLEU-2/3/4↑	METEOR↑	CLIPcrop↑
Image Editing	HD-Painter	1024²	63.29/47.63/36.28	0.1484	64.09
Image Editing	BLD	1024²	55.30/40.38/29.58	0.1480	62.40
Layout-to-Image	NoiseCollage	512²	55.75/42.43/32.96	0.1402	64.01
Ours	-	1024²	64.99/47.69/36.59	0.1513	64.29

在 Multi-Edit Bench 上全面超越图像编辑和布局生成 baseline。

消融实验¶

配置	BLEU-2/3/4↑	METEOR↑	CLIPcrop↑	说明
Baseline (PixArt-α inpaint)	56.29/42.04/33.06	0.1586	64.05	基线
+BCG	60.74/46.27/35.20	0.1585	64.10	背景一致性有效提升
+QD	62.68/46.42/35.03	0.1530	63.99	查询解耦改善语义
Ours (Full)	64.99/47.69/36.59	0.1513	64.29	MQD+记忆进一步提升

关键发现¶

BCG 对 BLEU 提升最显著（+4.5），说明背景一致性是迭代编辑的核心挑战
MQD 从 QD 扩展到多查询版本后 BLEU 和 CLIP 都进一步提升，说明利用完整编辑历史（而非仅背景+当前）很重要
人工评估（50人，5分制）中，本方法在背景一致性（4.59 vs 3.71）、自然适应（4.28 vs 2.81）和文本-场景对齐（4.49 vs 3.08）上全面超越 HD-Painter
SD3-ControlNet-Inpaint 在多步编辑中表现非常差（BLEU-2 仅 29.90），说明单步 inpainting 方法不适合迭代场景

亮点与洞察¶

Mask order 概念精巧：将遮挡关系编码为编辑顺序，自然地支持前后层级关系（如"狗在吉普车前面"），无需显式深度估计
Training-free 设计：不需要任何微调，直接在预训练 PixArt-α 上运行，实用性强
对象删除的巧妙实现：利用记忆中跳过被删对象的 latent + MQD 移除对应 prompt 影响 + 从中间步骤开始省 60% 时间

局限与展望¶

记忆存储所有步骤的完整去噪轨迹，对长序列编辑（几十步）可能产生较大显存开销
仅在 PixArt-α 上验证，未测试在 FLUX、SD3 等更新模型上的泛化性
粗糙掩码虽然降低了用户负担，但准确掩码+本方法是否能进一步提升未被讨论
Multi-Edit Bench 的评估依赖 LLaVa captioning + BLEU 计算，可能存在评估偏差
不支持对已有对象的属性修改（如改颜色/风格），仅支持添加和删除

评分¶

新颖性: ⭐⭐⭐⭐ 层级记忆+MQD 的组合针对迭代编辑痛点设计精准，mask order 概念新颖
实验充分度: ⭐⭐⭐⭐ 提出新 benchmark、定量+人工评估全面，但缺少更多模型上的验证
写作质量: ⭐⭐⭐⭐ 图示清晰（尤其 Fig.2 的框架图），公式推导明了
价值: ⭐⭐⭐⭐ 填补了迭代图像编辑的空白，Training-free 实用性高