跳转至

Improving Editability in Image Generation with Layer-wise Memory

会议: CVPR 2025
arXiv: 2505.01079
代码: 无
领域: 扩散模型
关键词: 图像编辑, 迭代生成, 层级记忆, 注意力解耦, 扩散模型

一句话总结

本文提出基于层级记忆的迭代图像编辑框架,通过存储每步编辑的 latent 和 prompt embedding,结合背景一致性引导(BCG)和多查询解耦注意力(MQD),实现多步顺序编辑中背景保持一致且新对象自然融入的效果。

研究背景与动机

领域现状:文本到图像生成(如 Stable Diffusion、PixArt-α、FLUX)已非常成熟,但实际编辑场景通常需要多步顺序修改——用户迭代地添加、修改场景中的多个对象。现有编辑方法(HD-Painter、Blended Latent Diffusion)主要针对单对象单次修改设计。

现有痛点:(1)单次编辑方法在多步顺序编辑中表现差,难以保持之前编辑的一致性;(2)需要精确的分割掩码或外部模块维护背景完整性;(3)布局到图像方法(Bounding Box/深度图指导)每次修改都重新生成整张图,无法保持已编辑的上下文;(4)遮挡关系处理困难,如在已有对象前放置新对象。

核心矛盾:迭代编辑需要同时满足两个冲突目标——保持之前编辑的稳定性(不改变已有内容)和新对象的自然融入(需要上下文感知的适应性生成)。

本文目标 (1)如何用粗糙掩码实现对象放置并保持背景?(2)如何在多步编辑中维护一致性?(3)如何处理 mask order(遮挡关系)?

切入角度:作者引入 mask order 概念来指定对象的生成顺序(即图层深度关系),并设计记忆机制存储编辑历史。关键观察是每步编辑的 latent 和 prompt 信息可以被复用,避免重复前向传播并保持一致性。

核心 idea:用层级记忆存储编辑历史、背景一致性引导复用 latent 保持背景、多查询解耦注意力处理遮挡关系实现自然融入。

方法详解

整体框架

基于 PixArt-α(DiT 架构的扩散模型)构建,无需额外训练。用户提供背景 prompt + 依次添加的对象 prompt 和粗糙掩码。每步编辑时,Layer-wise Memory 存储当前步的 latent、prompt embedding 和 mask。BCG 从记忆中检索上一步的 latent 进行背景区域的 blending。MQD 在 cross-attention 中解耦当前对象和历史对象的查询,处理遮挡关系。

关键设计

  1. 层级记忆(Layer-wise Memory):

    • 功能:存储每个编辑步骤的完整信息以支持后续编辑的上下文保持
    • 核心思路:定义记忆集合 \(L_l = \{l_0, l_1, l_2, ...\}\),每个元素 \(l_i = \{\mathbf{p}_i, \{\mathbf{Z}_i^t\}_{t=1}^T, m_i\}\) 包含三项:prompt embedding、所有去噪步骤的 latent 序列、掩码。背景生成时 \(m_0\) 为全 1 掩码,后续每个对象有独立的 mask 定义 RoI。新对象的 latent 独立初始化后与记忆中的历史 latent 通过 BCG 混合。
    • 设计动机:存储完整的去噪轨迹(而非仅最终结果)使得后续编辑可以在任意去噪步骤进行精确的 latent blending,避免了传统方法每次都需要对原图做前向传播的开销。
  2. 背景一致性引导(BCG):

    • 功能:高效保持未编辑区域的稳定性
    • 核心思路:在每个去噪步骤 \(t\),仅更新掩码内区域,掩码外直接从记忆中检索上一步的 latent:\(\mathbf{Z}_i = \mathbf{Z}_{i-1} \odot (1-m_i) + \mathbf{Z}_i \odot m_i\)。由于 latent 直接从记忆取出,无需对原图做额外的前向传播(forward pass),相比传统 latent blending 省去了 \(C_f\) 的计算开销。
    • 设计动机:传统 inpainting 方法(如 BLD)每次编辑都需要对原图做前向传播得到背景 latent,在多步编辑中成本倍增。BCG 实测省约 10% 单步时间,多步编辑中优势更大。
  3. 多查询解耦交叉注意力(MQD):

    • 功能:确保新对象在不同 mask order 下自然融入,正确处理遮挡关系
    • 核心思路:在 cross-attention 层中,对当前对象的 RoI 区域用当前 prompt 做注意力;对之前各步的非重叠区域分别用对应的历史 prompt 做注意力:\(\mathbf{z}_i^{attn} = \bigcup_{j=0}^{i-1} \text{CrossAttention}(\mathbf{z}_i^{k,t} \odot (m_j - \Sigma_{l=j+1}^i m_l), p_j)\)。最后合并所有注意力结果。关键在于 \(m_j - \Sigma_{l=j+1}^i m_l\) 确保后面添加的对象遮挡前面的对象。
    • 设计动机:标准 cross-attention 无法区分不同 mask order 对应的语义区域。MQD 让每个区域只关注对应的 prompt,避免了语义混乱,同时通过掩码减法实现了自然的遮挡关系。

损失函数 / 训练策略

本方法为 training-free pipeline,使用预训练的 PixArt-α 模型(XL-1024),DPM-Solver 采样,引导尺度 7.5,总去噪步数 20。对象删除功能通过从中间步骤 \(\tau\) 开始混合两个历史 latent 实现(\(\tau = 8\),节省 60% 时间)。

实验关键数据

主实验

类型 方法 分辨率 BLEU-2/3/4↑ METEOR↑ CLIPcrop↑
Image Editing HD-Painter 1024² 63.29/47.63/36.28 0.1484 64.09
Image Editing BLD 1024² 55.30/40.38/29.58 0.1480 62.40
Layout-to-Image NoiseCollage 512² 55.75/42.43/32.96 0.1402 64.01
Ours - 1024² 64.99/47.69/36.59 0.1513 64.29

在 Multi-Edit Bench 上全面超越图像编辑和布局生成 baseline。

消融实验

配置 BLEU-2/3/4↑ METEOR↑ CLIPcrop↑ 说明
Baseline (PixArt-α inpaint) 56.29/42.04/33.06 0.1586 64.05 基线
+BCG 60.74/46.27/35.20 0.1585 64.10 背景一致性有效提升
+QD 62.68/46.42/35.03 0.1530 63.99 查询解耦改善语义
Ours (Full) 64.99/47.69/36.59 0.1513 64.29 MQD+记忆进一步提升

关键发现

  • BCG 对 BLEU 提升最显著(+4.5),说明背景一致性是迭代编辑的核心挑战
  • MQD 从 QD 扩展到多查询版本后 BLEU 和 CLIP 都进一步提升,说明利用完整编辑历史(而非仅背景+当前)很重要
  • 人工评估(50人,5分制)中,本方法在背景一致性(4.59 vs 3.71)、自然适应(4.28 vs 2.81)和文本-场景对齐(4.49 vs 3.08)上全面超越 HD-Painter
  • SD3-ControlNet-Inpaint 在多步编辑中表现非常差(BLEU-2 仅 29.90),说明单步 inpainting 方法不适合迭代场景

亮点与洞察

  • Mask order 概念精巧:将遮挡关系编码为编辑顺序,自然地支持前后层级关系(如"狗在吉普车前面"),无需显式深度估计
  • Training-free 设计:不需要任何微调,直接在预训练 PixArt-α 上运行,实用性强
  • 对象删除的巧妙实现:利用记忆中跳过被删对象的 latent + MQD 移除对应 prompt 影响 + 从中间步骤开始省 60% 时间

局限与展望

  • 记忆存储所有步骤的完整去噪轨迹,对长序列编辑(几十步)可能产生较大显存开销
  • 仅在 PixArt-α 上验证,未测试在 FLUX、SD3 等更新模型上的泛化性
  • 粗糙掩码虽然降低了用户负担,但准确掩码+本方法是否能进一步提升未被讨论
  • Multi-Edit Bench 的评估依赖 LLaVa captioning + BLEU 计算,可能存在评估偏差
  • 不支持对已有对象的属性修改(如改颜色/风格),仅支持添加和删除

相关工作与启发

  • vs HD-Painter: HD-Painter 放宽掩码精度但仍是单步方法,多步编辑时对象外观不一致(如 bus 在迭代中变样)
  • vs Blended Latent Diffusion: BLD 每步需要前向传播原图做 latent blending,多步编辑成本累加;本方法用记忆消除重复计算
  • vs NoiseCollage: NoiseCollage 是布局到图像方法,每次重新生成全图,无法保持已有内容;本方法增量式更新

评分

  • 新颖性: ⭐⭐⭐⭐ 层级记忆+MQD 的组合针对迭代编辑痛点设计精准,mask order 概念新颖
  • 实验充分度: ⭐⭐⭐⭐ 提出新 benchmark、定量+人工评估全面,但缺少更多模型上的验证
  • 写作质量: ⭐⭐⭐⭐ 图示清晰(尤其 Fig.2 的框架图),公式推导明了
  • 价值: ⭐⭐⭐⭐ 填补了迭代图像编辑的空白,Training-free 实用性高

相关论文