跳转至

A²-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

日期: 2026-03-11
arXiv: 2603.10685
代码: 即将释出
领域: 图像生成 / 图像编辑
关键词: image inpainting, reference-guided editing, Mixture of Transformers, mask annealing, multi-category

一句话总结

提出 A²-Edit,统一的参考引导图像修复框架,通过 Mixture of Transformers (MoT) 动态路由不同类别的专家进行差异化建模,配合 Mask Annealing Training Strategy (MATS) 逐步放松掩码精度要求,支持任意物体类别和任意精度掩码的编辑。

研究背景与动机

  1. 领域现状: 参考引导图像修复(用参考图替换目标区域)是电商产品展示、虚拟试穿等场景的核心技术。

  2. 现有痛点: 现有方法针对特定领域优化(服装/肖像/刚性物体),不同类别的编辑目标本质不同(服装强调纹理一致性、肖像强调身份保持、刚性物体强调几何材质),统一模型难以兼顾。且都依赖高精度分割掩码,粗略掩码下性能严重退化。

  3. 核心矛盾: 跨类别泛化 + 掩码鲁棒性的双重挑战。

  4. 核心 idea: MoT 动态选择专家处理不同类别 + MATS 渐进训练减少掩码依赖 + UniEdit-500K 大规模多类别数据集。

方法详解

整体框架

参考图像 + 目标图像 + 粗略掩码 → 统一特征编码 → MoT 模块(动态专家路由)→ VAE 解码 → 高质量编辑结果。

关键设计

  1. Mixture of Transformers (MoT):

    • 在注意力层和前馈层嵌入专家特定的 Transformer 块
    • 根据输入物体的语义特征和类别属性动态路由到专化专家
    • 既实现类别特定建模,又通过专家间协作促进跨类别知识迁移
    • 与标准 MoE 的区别:不只在 FFN 做 routing,注意力层也有专家
  2. Mask Annealing Training Strategy (MATS):

    • 三阶段训练:精确掩码 → 膨胀掩码 → 粗略边界框
    • 逐步降低掩码精度,迫使模型从依赖几何边界转向理解上下文语义
    • 提升对用户手绘/检测框等粗略掩码的鲁棒性
  3. UniEdit-500K 数据集:

    • 500,104 对参考-目标图像,8 大类 209 个细分子类
    • 覆盖纹理主导的非刚性物体和结构主导的刚性物体
    • 解决现有数据集类别同质化问题

实验关键数据

主实验 — VITON-HD(虚拟试穿)

方法 FID↓ SSIM↑ LPIPS↓
IDM-VTON 7.23 0.885 0.058
Insert Anything 8.45 0.871 0.065
A²-Edit 6.89 0.891 0.052

消融实验

配置 跨类别 FID
无 MoT(共享参数) 较高
有 MoT(专家路由) 显著降低
无 MATS(精确掩码) 粗掩码下崩溃
有 MATS(渐进训练) 粗掩码下稳定

关键发现

  • MoT 对非刚性物体(人脸、宠物)提升最大——这些类别最需要专化建模
  • MATS 使模型在边界框级掩码下仍保持可用质量
  • 在多个基准(VITON-HD、AnyInsertion)上全指标超越现有方法

亮点与洞察

  • MoT 架构跨类别: 动态专家路由让统一模型兼顾刚性/非刚性物体的不同编辑需求
  • MATS 训练策略: 渐进掩码退化是简单但有效的提升鲁棒性方案
  • UniEdit-500K: 最全面的跨类别编辑数据集,对后续研究有长期价值

局限性 / 可改进方向

  • 专家数量和路由策略可进一步优化
  • 未探索文本引导+参考图联合编辑
  • 掩码退化训练可能引入某些精细编辑的质量损失

评分

  • 新颖性: ⭐⭐⭐⭐ MoT + MATS 的组合设计新颖实用
  • 实验充分度: ⭐⭐⭐⭐ 多基准+消融+跨类别分析
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰
  • 价值: ⭐⭐⭐⭐ 对通用图像编辑有直接实用价值