跳转至

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

会议: ICCV 2025
arXiv: 2505.02370
领域: 扩散模型·图像编辑
关键词: 指令编辑, 监督信号修正, 对比学习, 扩散先验, VLM, triplet loss

一句话总结

SuperEdit 通过利用扩散生成先验引导 VLM 修正编辑指令、并构建对比监督信号(正/负指令 + triplet loss)来解决指令式图像编辑中的噪声监督问题,以更少数据和更小模型超越 SmartEdit 9.19%。

研究背景与动机

指令式图像编辑的训练数据通常由自动流水线生成(LLM 修改描述 → 扩散模型生成编辑图像),但扩散模型无法精确遵循文本指令,导致:

  • 编辑图像与编辑指令不匹配
  • 原图中不需要修改的部分也被改变
  • 产生噪声监督信号

现有方法的应对策略及其局限:

扩大数据规模(InstructPix2Pix):噪声监督问题未解决

引入大型 VLM(SmartEdit、MGIE):计算开销巨大(14.1B 参数)

预训练识别任务(InstructDiffusion):间接缓解,不触及根本问题

SuperEdit 的关键洞察:问题在于监督信号本身,而非模型架构。修正指令比放大模型更直接有效。

方法详解

1. 扩散生成先验

核心发现:编辑模型在不同推理阶段生成独立于文本的固定属性: - 早期阶段:生成全局布局 - 中期阶段:生成局部物体属性 - 晚期阶段:生成图像细节 - 风格变化:贯穿所有阶段

这一先验为统一的指令修正提供了基础。

2. 指令修正(Rectifying Supervision)

利用 GPT-4o 根据 original→edited 图像对的差异,按照四种生成属性(全局/局部/细节/风格)重新生成准确的编辑指令。

具体流程: 1. 输入原始图像和编辑图像给 GPT-4o 2. 根据扩散先验定义的四类变化引导 VLM 描述差异 3. 汇总为与图像对精确匹配的修正指令 4. 确保指令长度不超过 CLIP text encoder 的 77 token 限制

3. 对比监督(Facilitating Supervision)

修正指令后,编辑模型仍难以区分相近指令(如"在左边加一只猫" vs "在右边加两只猫")。

构建对比指令:利用 GPT-4o 基于修正指令替换单个属性(数量/位置/物体)生成错误指令 \(c^T_{neg}\)

Triplet Loss

\[\mathcal{L}_{\text{triplet}} = \max\{d(\epsilon_t, \epsilon_{pos}) - d(\epsilon_t, \epsilon_{neg}) + m, 0\}\]

其中: $\(\epsilon_{pos} = \epsilon_\theta(\text{concat}(x_t, c^I), t, c^T_{pos})\)$ $\(\epsilon_{neg} = \epsilon_\theta(\text{concat}(x_t, c^I), t, c^T_{neg})\)$

总损失

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{train}} + \lambda \cdot \mathcal{L}_{\text{triplet}}\]

其中 \(\mathcal{L}_{\text{train}} = d(\epsilon_t, \epsilon_{pos})\) 为标准扩散损失。

实验

Real-Edit 基准对比

方法 额外模块 预训练 数据量 模型大小 Overall↑
SmartEdit 1.2M 14.1B 3.59
MGIE 1.0M 8.1B 2.86
InstructPix2Pix 300K 1.1B 3.31
SuperEdit 40K 1.1B 3.92

SuperEdit 以 30× 更少数据13× 更小模型超越 SmartEdit 9.19%。

GPT-4o 自动评估

方法 Following Acc↑ Preserving Acc↑ Quality Acc↑ Overall Acc↑
SmartEdit 64% 66% 45% 58.3%
SuperEdit 75% 72% 55% 67.3%

在指令遵循、内容保持、图像质量三个维度上全面领先。

消融实验

配置 Following↑ Preserving↑ Quality↑ Overall↑
原始指令 (baseline) 52% 53% 50% 51.7%
+ 修正指令 70% 68% 52% 63.3%
+ 修正指令 + 对比损失 75% 72% 55% 67.3%

指令修正贡献了约 11.6% 的提升,对比损失额外贡献 4%。

亮点与洞察

  1. 数据导向而非模型导向:通过改善监督信号而非放大模型,以极小代价获得更大收益
  2. 扩散先验的通用性:发现编辑模型和 T2I 模型共享相同的阶段性生成属性
  3. 对比学习的巧妙应用:仅修改指令中的单个属性,确保正负样本的嵌入差异小而语义差异大
  4. 完全开源(数据+模型),可复现性强

局限性

  • 依赖 GPT-4o 进行指令修正和对比指令生成,存在 API 成本
  • InstructPix2Pix 架构本身的局限(如 SD 1.5 的分辨率限制)
  • 对比损失需要额外的 UNet 前向传播(每步多计算一次)
  • 未探索与更强基础模型(SDXL、Flux)的结合

相关工作

  • 指令编辑:InstructPix2Pix、MagicBrush、SmartEdit
  • 编辑数据构建:Prompt-to-Prompt、EditBench
  • 扩散模型对齐:DPO for diffusion、ReFL

评分

维度 分数 (1-5)
创新性 4
技术深度 4
实验充分性 5
写作质量 4
综合 4.2

相关论文