ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework¶

日期: 2026-03-21
arXiv: 2603.20644
代码: GitHub
领域: 图像生成
关键词: image editing, multi-agent, dataset, open-source, unified multimodal model

一句话总结¶

提出 ScaleEditor，全开源多智能体层级框架，通过源图扩展+自适应编辑合成+任务感知质量验证三阶段构建了 ScaleEdit-12M（1200 万编辑对，23 类任务），微调 UniWorld-V1 后在 GEdit 上提升 35.1%、RISE 上提升 150.0%，证明开源 pipeline 可逼近商用 API 数据质量。

研究背景与动机¶

领域现状: 指令式图像编辑是统一多模态模型(UMM)的核心能力，GPT-4o-Image 和 Nano-Banana 等商用系统已展示强大编辑能力。
现有痛点: (a) 依赖闭源模型标注——GPT-4o 生成数据虽质量高但成本不可扩展（如 OpenGPT-4o-Image 仅 40K 对）；(b) 开源固定合成管线——UltraEdit/AnyEdit 用固定编辑算子（mask inpainting、风格转化等），质量和多样性受限；(c) 源图域窄、指令模板死板、质量过滤粗糙。
核心 idea: 用开源多智能体框架替代商用 API——同时解决源图多样性（检索+合成扩展）、编辑自适应性（路由到专用 agent）和质量保证（三维评估过滤）。

方法详解¶

整体框架¶

ScaleEditor 分三阶段：源图扩展 → 自适应多 Agent 编辑合成 → 任务感知质量验证。

关键设计¶

源图扩展（世界知识注入）:
- 检索分支：基于图像和文本的双路搜索引擎检索，引入真实场景变体和长尾视觉概念
- 合成分支：MetaCaptioner 生成详细描述 → Qwen-Image 生成变体图像，增加域内多样性
- 感知哈希去重，最终 >10M 唯一图像
自适应多 Agent 编辑合成:
- 23 类预定义编辑任务，Qwen2.5-VL-72B 作为任务路由器
- 拒绝策略：排除不适合的任务，其余视为可行（一图多任务）
- 24 个专用指令 Agent + 多种编辑模型（Qwen-Image-Edit, FLUX.1 Kontext, Step1X-Edit, Flux-Text）
- 文本感知编辑：PaddleOCR 检测 → 文本指令 Agent → 文本编辑 Agent
- 知识推理编辑：指令解耦——复杂推理查询 + 精简可执行命令，保留复杂意图作为用户输入
任务感知质量验证:
- 三维评估：指令遵循、编辑一致性、生成质量
- 每类任务有专用评估 prompt（Qwen2.5-VL-72B）
- 过滤标准：指令遵循必须满分(3)，其余至少 2 分
- 85.3% 数据三维均达满分

实验关键数据¶

GEdit-EN-Full 对比¶

模型 + 数据	Avg Score
UniWorld-V1 (原始)	~4.85
+ UltraEdit	5.30
+ AnyEdit	5.52
+ ScaleEdit	6.55 (+35.1%)

知识编辑 Benchmark¶

Benchmark	UniWorld-V1 原始	+ ScaleEdit	提升
RISE	基线	—	+150.0%
KRIS-Bench	基线	—	+12.6%

Bagel 基线验证¶

Benchmark	Bagel + ScaleEdit 提升
GEdit	+10.0%
ImgEdit	+7.8%
KRIS-Bench	+26.5%

关键发现¶

ScaleEdit 在所有 benchmark 上一致优于其他开源数据集训练的模型
知识推理编辑提升最大（RISE +150%），说明世界知识注入和推理编辑工作流有效
跨模型泛化：UniWorld-V1 和 Bagel 两个不同架构均获得显著收益

亮点与洞察¶

规模 + 质量兼得：12M 级别的纯开源编辑数据集，质量可比肩 ShareGPT-4o
指令解耦策略巧妙：将复杂推理查询与可执行命令分离，绕过执行模型的能力边界
任务路由器的拒绝策略比肯定匹配更鲁棒——明确排除不适合任务而非强行匹配

局限性 / 可改进方向¶

质量验证仍依赖 Qwen2.5-VL-72B 打分，可能有系统性偏差
缺少人工评估对比
计算成本分析缺失——12M 数据的生成总成本是多少？

评分¶

新颖性: ⭐⭐⭐⭐ 多 Agent 框架思路清晰，知识推理编辑和指令解耦有新意
实验充分度: ⭐⭐⭐⭐ 多 benchmark 多模型交叉验证
价值: ⭐⭐⭐⭐⭐ 12M 开源数据集对社区价值极大