A²-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks¶

日期: 2026-03-11
arXiv: 2603.10685
代码: 即将释出
领域: 图像生成 / 图像编辑
关键词: image inpainting, reference-guided editing, Mixture of Transformers, mask annealing, multi-category

一句话总结¶

提出 A²-Edit，统一的参考引导图像修复框架，通过 Mixture of Transformers (MoT) 动态路由不同类别的专家进行差异化建模，配合 Mask Annealing Training Strategy (MATS) 逐步放松掩码精度要求，支持任意物体类别和任意精度掩码的编辑。

研究背景与动机¶

领域现状: 参考引导图像修复（用参考图替换目标区域）是电商产品展示、虚拟试穿等场景的核心技术。
现有痛点: 现有方法针对特定领域优化（服装/肖像/刚性物体），不同类别的编辑目标本质不同（服装强调纹理一致性、肖像强调身份保持、刚性物体强调几何材质），统一模型难以兼顾。且都依赖高精度分割掩码，粗略掩码下性能严重退化。
核心矛盾: 跨类别泛化 + 掩码鲁棒性的双重挑战。
核心 idea: MoT 动态选择专家处理不同类别 + MATS 渐进训练减少掩码依赖 + UniEdit-500K 大规模多类别数据集。

方法详解¶

整体框架¶

参考图像 + 目标图像 + 粗略掩码 → 统一特征编码 → MoT 模块（动态专家路由）→ VAE 解码 → 高质量编辑结果。

关键设计¶

Mixture of Transformers (MoT):
- 在注意力层和前馈层嵌入专家特定的 Transformer 块
- 根据输入物体的语义特征和类别属性动态路由到专化专家
- 既实现类别特定建模，又通过专家间协作促进跨类别知识迁移
- 与标准 MoE 的区别：不只在 FFN 做 routing，注意力层也有专家
Mask Annealing Training Strategy (MATS):
- 三阶段训练：精确掩码 → 膨胀掩码 → 粗略边界框
- 逐步降低掩码精度，迫使模型从依赖几何边界转向理解上下文语义
- 提升对用户手绘/检测框等粗略掩码的鲁棒性
UniEdit-500K 数据集:
- 500,104 对参考-目标图像，8 大类 209 个细分子类
- 覆盖纹理主导的非刚性物体和结构主导的刚性物体
- 解决现有数据集类别同质化问题

实验关键数据¶

主实验 — VITON-HD（虚拟试穿）¶

方法	FID↓	SSIM↑	LPIPS↓
IDM-VTON	7.23	0.885	0.058
Insert Anything	8.45	0.871	0.065
A²-Edit	6.89	0.891	0.052

消融实验¶

配置	跨类别 FID
无 MoT（共享参数）	较高
有 MoT（专家路由）	显著降低
无 MATS（精确掩码）	粗掩码下崩溃
有 MATS（渐进训练）	粗掩码下稳定

关键发现¶

MoT 对非刚性物体（人脸、宠物）提升最大——这些类别最需要专化建模
MATS 使模型在边界框级掩码下仍保持可用质量
在多个基准（VITON-HD、AnyInsertion）上全指标超越现有方法

亮点与洞察¶

MoT 架构跨类别: 动态专家路由让统一模型兼顾刚性/非刚性物体的不同编辑需求
MATS 训练策略: 渐进掩码退化是简单但有效的提升鲁棒性方案
UniEdit-500K: 最全面的跨类别编辑数据集，对后续研究有长期价值

局限性 / 可改进方向¶

专家数量和路由策略可进一步优化
未探索文本引导+参考图联合编辑
掩码退化训练可能引入某些精细编辑的质量损失

评分¶

新颖性: ⭐⭐⭐⭐ MoT + MATS 的组合设计新颖实用
实验充分度: ⭐⭐⭐⭐ 多基准+消融+跨类别分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰
价值: ⭐⭐⭐⭐ 对通用图像编辑有直接实用价值