OmniGen: Unified Image Generation¶

会议: CVPR 2025
arXiv: 2409.11340
代码: https://github.com/VectorSpaceLab/OmniGen
领域: 图像生成 / 统一模型
关键词: 统一图像生成, 扩散模型, 多任务, 知识迁移, Rectified Flow

一句话总结¶

首个通用图像生成基础模型，仅由 VAE 和 Transformer 组成，通过统一多模态输入格式实现文生图、图像编辑、可控生成等多任务端到端处理。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：大语言模型 (LLM) 已统一语言生成任务并革新人机交互，但图像生成领域仍缺乏能在单一框架内处理各种任务的统一模型。当前每个新任务都需设计特定模块并微调（如 ControlNet 用于可控生成、InstantID 用于身份保持、InstructPix2Pix 用于编辑），导致繁琐的多步工作流程。例如，ControlNet 需先用检测器提取条件，InstantID 需人脸检测和编码。核心问题是：能否像 ChatGPT 处理语言任务那样，通过单个模型和用户指令端到端完成任意图像生成任务？本文提出 OmniGen，追求极简架构和灵活指令跟随，消除对额外插件和中间步骤的需求。

解决思路¶

本文目标：### 整体框架

OmniGen 仅包含两个组件：冻结的 SDXL VAE 用于图像编解码，Phi-3 初始化的大型 Transformer 模型用于基于条件的图像生成。

方法详解¶

整体框架¶

OmniGen 仅包含两个组件：冻结的 SDXL VAE 用于图像编解码，Phi-3 初始化的大型 Transformer 模型用于基于条件的图像生成。支持任意交错的文本和图像多模态输入，通过 rectified flow 方法训练。推理时从高斯噪声出发，迭代预测目标速度，最终用 VAE 解码器生成图像。整个架构无需 CLIP 文本/图像编码器等额外组件。

关键设计¶

统一输入表示与注意力机制：文本用 Phi-3 tokenizer 处理，图像用 VAE 编码后线性嵌入为视觉 token 序列，用 <<<img>>> 和 <<</img>>> 特殊标记封装并插入文本 token 流。注意力机制融合因果注意力和双向注意力：文本 token 使用因果注意力（左到右依赖），但每个图像内部使用双向注意力（patch 间互相注意），不同图像只能注意之前出现过的图像/文本。推理时可用 KV-cache 加速。
X2I 数据集构建：首个全面图像生成数据集（约1亿图像），统一所有任务为交错图文序列格式。涵盖文生图（Recap-DataComp 56M、LAION-Aesthetic 等）、多模态到图像（图像编辑、虚拟试衣、风格迁移、视觉条件控制等）、主体驱动生成（GRIT-Entity + 网络图像）。所有任务使用统一格式，无需任务特定特殊标记。
编辑区域加权损失：图像编辑任务中输入输出差异小，模型易学到直接复制的捷径。通过计算输入/目标图像潜表示的差异，对变化区域赋予显著更高的损失权重 \(w_{i,j} = \frac{1}{\|\mathbf{x} - \mathbf{x}'\|^2}\)（变化区域）vs 1（不变区域），引导模型聚焦需修改区域。

损失函数 / 训练策略¶

Rectified Flow 目标: \(\mathcal{L} = \mathbb{E}[\|(\mathbf{x} - \epsilon) - v_\theta(\mathbf{x}_t, t, c)\|^2]\)
渐进式分辨率训练：256→512→1024→2240→多分辨率，共5阶段
AdamW 优化器，104 张 A800 GPU
仅 VAE 冻结，Transformer 全参数训练

实验关键数据¶

主实验¶

能力	对比方法	OmniGen 表现
文生图	SD系列, DALL-E, Imagen	竞争力十足
可控生成	ControlNet	端到端，无需检测器
主体驱动	InstantID, IP-Adapter	无需人脸检测器
图像编辑	InstructPix2Pix	单模型完成
经典CV任务	特定任务模型	同样支持

消融实验¶

设计选择	效果
无编辑区域加权	编辑任务输出直接复制输入
因果+双向注意力	优于纯因果或纯双向
渐进分辨率	低分辨率数据高效，高分辨率提升美学质量
X2I 统一训练	显著的跨任务知识迁移

关键发现¶

OmniGen 展现出强大的跨任务知识迁移能力，可处理未见过的任务和领域
统一训练培养了推理能力和思维链机制的潜力
无需 CLIP 编码器，单一 Transformer 自主编码所有条件信息，不同模态间有交互
极简架构（VAE + Transformer）即可覆盖需要多个专门模型的复杂工作流

亮点与洞察¶

真正的"一个模型做所有事"哲学，类似 LLM 在语言领域的革命
架构极简但功能全面——证明了足够大的 Transformer + 足够多的数据即可涌现通用能力
X2I 数据集的统一格式设计是关键贡献——使不同任务得以在同一框架下训练
编辑区域加权损失解决了一个实际而微妙的训练问题（复制捷径）

局限与展望¶

模型参数量大，推理成本高于专用模型
在特定任务上可能不如精心设计的专用模型（如 ControlNet 在边缘检测条件控制上）
训练数据规模和计算资源需求巨大（104 A800）
可探索更高效的架构设计和知识蒸馏方案

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个真正意义上的通用图像生成基础模型
实验充分度: ⭐⭐⭐⭐ — 多任务多基准评估，但部分任务对比不够深入
写作质量: ⭐⭐⭐⭐ — 愿景清晰，架构描述简洁
实用价值: ⭐⭐⭐⭐⭐ — 极大简化图像生成工作流，开源贡献大