DreamOmni: Unified Image Generation and Editing¶

会议: CVPR 2025
arXiv: 2412.17098
代码: https://zj-binxia.github.io/DreamOmni-ProjectPage/
领域: 图像生成
关键词: 统一生成编辑、DIT架构、合成数据、VLM编码器、多任务模型

一句话总结¶

构建统一文生图+多种编辑任务（指令编辑/修补/拖拽/参考生成）的 2.5B DIT 模型，用 Qwen2-VL 替换文本编码器实现统一视觉-语言 prompt 理解，通过合成贴纸数据管线高效创建编辑训练数据，在生成和编辑上同时达到 SOTA。

领域现状：图像生成（T2I）和图像编辑（指令编辑、inpainting、拖拽编辑等）通常是独立模型。统一两者可以共享视觉知识但面临多任务冲突和数据不均衡的挑战。

现有痛点：(1) 编辑训练数据获取困难——需要编辑前后的配对图像。(2) 不同编辑任务的 prompt 格式差异大（文本指令/区域 mask/拖拽点/参考图像）。(3) UNet 架构在多任务联合训练时收敛慢。

核心矛盾：统一模型需要同时在生成和编辑上表现好，但编辑任务需要精细的空间理解而生成任务需要创意发散。

本文目标 设计一个同时处理 T2I 和多种编辑任务的统一框架，解决数据、架构和 prompt 统一三个问题。

切入角度：用 DIT 替代 UNet（计算集中在 2× 下采样潜空间更高效）+ VLM 编码器统一理解多种 prompt + 合成贴纸数据管线高效创建编辑训练对。

核心 idea：VLM 编码器统一多种 prompt 理解 + DIT+UNet 残差连接加速收敛 + 合成贴纸数据管线解决编辑数据稀缺。

VLM（Qwen2-VL 7B）编码多模态 prompt → DIT 自注意力融合 VLM 特征和噪声潜空间 → UNet 式残差连接加速收敛 → Rectified Flow 训练 → 3 阶段渐进分辨率训练（256→512→1024）。

合成贴纸数据管线:
- 功能：高效创建精确的编辑训练数据
- 核心思路：基于贴纸的合成——将物体作为"贴纸"添加/移除/替换到图像上生成编辑前后对。支持指令编辑（添加/删除/替换）、拖拽编辑（平移/缩放/旋转）、参考生成、分割等。~60M 合成编辑对 + 125M T2I 数据
- 设计动机：比人工标注编辑对高效 1000×，且覆盖多种编辑类型。关键洞察：编辑训练的目的是教模型"编辑语义"而非"新概念"
VLM 编码器替换文本编码器:
- 功能：统一理解文本/图像/区域等多种 prompt
- 核心思路：Qwen2-VL 7B 可以同时处理文本指令+参考图像+区域标注，输出统一的条件 embedding。DIT 通过自注意力融合 VLM 特征和噪声潜空间
- 设计动机：传统 T5/CLIP 文本编码器无法处理图像输入。VLM 统一了生成和编辑的 prompt 理解
DIT + UNet 残差连接:
- 功能：加速多任务训练收敛
- 核心思路：DIT 块之间加入类似 UNet 的跳连（encoder→decoder），收敛速度提升 4×。DIT 比 UNet 更适合因为计算集中在 2× 下采样空间
- 设计动机：消融显示有残差连接在同等训练步数下 FID 更低，收敛更快

Rectified Flow 损失。3 阶段渐进分辨率（256→512→1024）。T2I + 编辑联合训练防止概念遗忘。