Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing¶

会议: ICLR 2026
arXiv: 2509.01986
代码: GitHub
领域: 扩散模型 / 图像编辑
关键词: Unified Multimodal Model, Chain-of-Thought, Image Editing, Designer-Painter, Data-Centric

一句话总结¶

指出当前统一多模态模型中理解模块仅作翻译器而生成模块被迫同时充当"设计师"和"画家"的职责失衡问题，通过构建 DIM 数据集（14M 长上下文文图对 + 233K CoT 编辑蓝图）将设计责任转移给理解模块，4.6B 参数即超越 5 倍大的模型。

研究背景与动机¶

领域现状：统一多模态理解与生成的模型（如 Show-o、BAGEL、UniWorld）在 T2I 生成上表现出色，但在指令引导的图像编辑上仍与 GPT-4o-Image 等专有模型有显著差距。
现有痛点：现有编辑模型的理解模块仅将用户指令编码为语义条件（充当"翻译器"），而生成模块需同时推断原始布局、定位编辑区域、渲染新内容（同时担任"设计师"和"画家"）。这种职责分配极不合理。
核心矛盾：理解模块通常在数倍于生成模块的数据上训练复杂推理任务，却未被充分利用来做设计规划。单纯扩大参数规模（如 Step1X-Edit 的 12.5B 生成参数）并非有效策略。
本文要解决什么？ 如何重新平衡理解与生成模块的职责分工，让编辑更高效？
切入角度：数据驱动——构建包含 CoT 推理蓝图的编辑数据集，让外部设计师（MLLM）在文本空间完成编辑规划，生成模块只需执行"绘画"。
核心idea一句话：将"设计"职责从生成模块转移给理解模块，通过 CoT 编辑蓝图显式降低生成模块的认知负担。

方法详解¶

整体框架¶

采用 connector-based 架构：冻结的 Qwen2.5-VL-3B（理解模块）通过两层 MLP 连接可训练的 SANA1.5-1.6B（生成模块），总参数仅 4.6B。推理时，外部设计师（如 GPT-4o）生成 CoT 编辑蓝图，模型据此执行编辑。

关键设计¶

DIM-T2I 数据集（14M）：从网络收集高分辨率（≥512²）图像，用内部模型从 21 个维度生成长上下文标注。平均 prompt 长度达 146.76 词（现有数据集通常 <40 词），为复杂 CoT 理解奠定基础。
DIM-Edit 数据集（233K）：
数据来源：160K UltraEdit（SSIM/DINO/CLIP 联合筛选）+ 46K ShareGPT-4o-Image + 27K 人工编辑数据
质量评估：GPT-4o 对原始 prompt 分三类判斷——Misaligned（丢弃）、Partially aligned（补充未提及的修改）、Aligned（消歧+精化）
CoT 蓝图生成：GPT-4o 对每对图像生成四步 CoT——(1) 全局布局感知 (2) 局部对象感知 (3) 编辑区域定位 (4) 编辑后图像想象。平均 prompt 长度达 252.64 词，远超现有数据集
两阶段训练策略：
T2I 阶段：在 DIM-T2I + 6.9M 公开数据上训练 connector 和 SANA1.5-1.6B，冻结 Qwen2.5-VL-3B
编辑阶段 I：在 UltraEdit 上微调学习基础编辑能力（源图沿通道维度拼接噪声）
编辑阶段 II：在 DIM-Edit 上微调，最终得到 DIM-4.6B-Edit

损失函数 / 训练策略¶

使用 vanilla flow matching 作为唯一目标函数
优化器 AdamW，T2I 学习率 \(2 \times 10^{-5}\)，编辑阶段 I 学习率 \(1 \times 10^{-4}\)，阶段 II 学习率 \(1 \times 10^{-5}\)
T2I batch size 256（8 epochs），编辑 batch size 32（阶段 I 10 epochs，阶段 II 50 epochs）
刻意排除 BLIP3-o-60K 等蒸馏数据，避免数据泄露和 benchmark hacking
推理时使用 GPT-4o 作为默认设计师，也验证了 GPT-5、Claude 等多种设计师的效果
编辑推理中设计师不接触目标图像（仅有源图+指令），确保与实际使用场景对齐

实验关键数据¶

主实验（ImgEdit Benchmark）¶

模型	参数量	Add	Replace	Remove	Background	Style	Action	Overall
Step1X-Edit	7B+12.5B	3.88	3.40	2.41	3.16	4.63	2.52	3.06
BAGEL	14B	3.56	3.30	2.62	3.24	4.49	4.17	3.20
UniWorld-V1	7B+12B	3.82	3.47	3.24	2.99	4.21	2.74	3.26
GPT-4o-Image	—	4.61	4.35	3.66	4.57	4.93	4.89	4.20
DIM-4.6B-Edit	3B+1.6B	4.09	4.00	3.43	3.87	4.92	4.08	3.67

DIM 以不到 5B 参数显著超越 14B-19B 级别的开源模型，缩小了与 GPT-4o-Image 的差距。

GEdit-Bench-EN（去除 Text Change 任务后）¶

模型	BC	CA	MA	MC	SC	SA	SRM	SRP	TT	AVG (w/o TC)
Step1X-Edit	7.03	6.26	6.46	3.66	7.24	7.17	6.42	7.39	6.62	6.35
DIM-4.6B-Edit	7.02	6.81	6.00	4.67	7.16	7.48	6.67	6.76	6.55	6.50

关键发现¶

仅 1.6B 生成参数即可超越 12B FLUX 后端的 Step1X-Edit，验证了数据质量 > 参数规模
在同数据（ShareGPT-4o-Image）训练的 Janus-4o（7B）表现远逊 DIM，说明提升来自 CoT 蓝图本身而非数据源
不同外部设计师（GPT-4o、GPT-5、Claude 等）均能有效驱动 DIM，证明框架的泛化性
T2I 质量也很强：GenEval 0.77，MJHQ-30K FID 最优 5.50

亮点与洞察¶

洞察深刻：将编辑失败归因于"职责失衡"而非模型大小不足，这一视角非常新颖
数据工程出色：CoT 蓝图的四步设计（感知→定位→想象）与人类编辑思维过程高度吻合
极致效率：仅用两层 MLP 作 connector（MetaQuery 用 1.6B transformer），证明复杂连接器非必需
严谨的数据清洗：三级 prompt 质量评估 + 多维筛选，避免了 AI 生成数据的常见噪声
设计/执行分离范式：可推广到其他需要复杂推理的生成任务

局限性 / 可改进方向¶

依赖外部 MLLM（GPT-4o）作为设计师，增加推理成本和 API 依赖
Text Change 任务表现较弱（缺乏对应训练数据），未来可补充文字编辑数据
未探索将设计师内化到模型中（当前设计师是外部的），端到端方案可能更优
编辑阶段的两阶段训练可能引入遗忘，课程学习策略有待优化
DIM-T2I 的 14M 数据量级对计算资源仍有较高要求
MagicBrush 测试集上 L1 和 CLIP-I 指标虽优，但 DINO 指标不如某些方法，细粒度语义保持仍有空间
当前仅支持单轮编辑，多轮迭代编辑（如先改背景再改前景）的支持有待探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ — "设计-画家"职责分离的洞察极为新颖，且用数据验证而非架构改动
实验充分度: ⭐⭐⭐⭐ — 多 benchmark 验证 + 多设计师泛化测试，但消融可更深入
写作质量: ⭐⭐⭐⭐⭐ — 逻辑清晰，类比直觉，图示精良
价值: ⭐⭐⭐⭐⭐ — 为统一模型的图像编辑提供了全新思路，数据已开源