EditAR: Unified Conditional Generation with Autoregressive Models¶
会议: CVPR 2025
arXiv: 2501.04699
代码: https://jitengmu.github.io/EditAR/ (有)
领域: 图像生成 / 图像编辑
关键词: 自回归模型, 统一条件生成, 图像编辑, 图像翻译, 知识蒸馏
一句话总结¶
提出 EditAR——首个将图像编辑(纹理修改、物体替换/移除、局部编辑)和图像翻译(深度/边缘/分割图到图像)统一在单一自回归框架中的方法,通过在 LlamaGen 基础上引入条件图像 token 前缀和 DINOv2 蒸馏损失,在标准 next-token prediction 范式下即可对多种条件生成任务取得与专用模型竞争的性能。
研究背景与动机¶
领域现状:条件图像生成(图像编辑 + 图像翻译)目前由扩散模型主导。不同任务需要不同的架构设计和训练策略:图像编辑需要 inversion + 内容保留,图像翻译(如 ControlNet)需要额外的控制网络。将这些任务整合到单一模型中非常困难。
现有痛点:扩散方法在单一任务上表现出色,但跨任务统一时面临三个挑战:(1) 不同任务的架构差异大(inversion-based vs feedforward vs ControlNet),难以在一个模型中兼顾;(2) LLM+扩散的组合方案计算和内存开销大,且联合优化困难;(3) 现有自回归模型(如 MaskGIT、VAR)虽有统一 token 表示的天然优势,但主要用于文本生成图像,尚未被证明适合条件生成。
核心矛盾:扩散模型在各个任务上有专用设计但难以统一;自回归模型天然统一但尚未展示条件生成能力。
本文目标 验证纯自回归模型能否在不依赖扩散的前提下,用一个统一架构同时解决多种图像编辑和翻译任务。
切入角度:既然自回归模型本身就是序列到序列的框架,条件图像和文本指令都可以自然地编码为 token 序列作为输入,输出编辑后的图像 token。关键是如何有效地引入图像条件并增强语义对齐。
核心 idea:基于 LlamaGen 的 next-token prediction 框架,通过条件图像 token 前缀 + DINOv2 蒸馏实现统一条件图像生成。
方法详解¶
整体框架¶
EditAR 由两个阶段组成:(1) VQ-Autoencoder 将图像映射为离散 token 序列;(2) 基于 Llama2 架构的自回归 Transformer 接收条件图像 token 和文本嵌入作为输入,按 next-token prediction 方式逐个预测目标图像 token。整体损失为交叉熵损失 + DINOv2 蒸馏损失。推理时通过对图像和文本的分类器自由引导(CFG)提升质量。
关键设计¶
-
条件图像 Token 前缀:
- 功能:让自回归模型能够接收条件图像作为输入,支持编辑和翻译任务
- 核心思路:将条件图像 \(\mathcal{I}_c\) 通过与目标图像相同的 VQ-Encoder 编码为 token 索引序列 \(c_{\mathcal{I}_c} = \{c_1, ..., c_{h \cdot w}\}\),与文本嵌入一起作为自回归模型的输入前缀。目标图像 token \(s\) 在训练时同时出现在输入和输出端实现自回归。关键细节是为条件图像 token 和输出 token 使用不同的位置嵌入,以区分控制序列和生成序列。输出的 token 概率建模为 \(p(s_i | s_{<i}, c_\mathcal{T}, c_{\mathcal{I}_c})\)。
- 设计动机:复用同一 VQ-Encoder 避免引入额外编码器,位置嵌入的区分确保模型能分辨输入上下文和生成目标。这种"前缀"方式是 LLM 领域中 prefix-tuning 的自然推广。
-
多模态条件的文本驱动切换:
- 功能:用统一接口支持不同类型的条件输入(自然图像编辑 vs 深度图/边缘图/分割图翻译)
- 核心思路:不同条件类型通过修改文本指令来区分。例如深度图翻译用 "Given the depth, generate the image following the instruction:
",边缘图和分割图类似。自然图像编辑只用 " "。所有条件类型共享同一模型参数,无需任何任务特定的网络模块。 - 设计动机:利用自回归模型强大的语言理解能力,让文本指令自然地编码任务类型信息,避免了 ControlNet 那样为每种条件训练单独参数的做法。
-
DINOv2 蒸馏损失:
- 功能:增强自回归模型的语义感知能力,改善文本-图像对齐
- 核心思路:从自回归 Transformer 最后一层提取特征,通过一个单层卷积对齐网络 \(\mathcal{A}\) 映射到与 DINOv2 相同的维度空间,计算 MSE 蒸馏损失:\(\mathcal{L}_{distill} = MSE(\mathcal{A}(\mathcal{F}(\cdot)), \mathcal{E}_{distill}(\cdot))\)。DINOv2 参数冻结。
- 设计动机:纯 token 预测训练只学习离散索引的分布,不保证学到通用语义特征。DINOv2 蒸馏将视觉基础模型的丰富语义知识注入自回归模型,实验证明能改善目标物体定位和编辑精度。
损失函数 / 训练策略¶
总损失 \(\mathcal{L} = \mathcal{L}_{CE} + 0.5 \cdot \mathcal{L}_{distill}\)。训练时对文本和图像条件分别以 5% 概率 dropout(在用条件时置空),再有 5% 同时置空两个条件,用于支持推理时的 CFG。推理时 CFG 强度 \(\eta = 3.0\),引导公式对图像条件做"image-conditional"引导。AdamW 优化器,学习率 \(10^{-4}\),batch size 64,训练 40K iterations。
实验关键数据¶
主实验(图像编辑 - PIE-Bench)¶
| 方法 | 类型 | Distance↓ | PSNR↑ | LPIPS↓ | Whole CLIP↑ | Edited CLIP↑ |
|---|---|---|---|---|---|---|
| InstructPix2Pix | 前馈 | 107.43 | 16.69 | 271.33 | 23.49 | 22.20 |
| MGIE | 前馈 | 67.41 | 21.20 | 142.25 | 24.28 | 21.79 |
| PnPInversion | 反演 | 11.65 | 27.22 | 54.55 | 25.02 | 22.10 |
| EditAR | 前馈 | 39.43 | 21.32 | 117.15 | 24.87 | 21.87 |
EditAR 在前馈方法中取得最佳综合表现,背景保留和编辑质量之间取得良好平衡。
图像翻译结果¶
| 任务 | 方法 | FID↓ |
|---|---|---|
| 深度→图像 | ControlNet++ | 16.66 |
| 深度→图像 | EditAR | 15.97 |
| 边缘→图像 | ControlNet | 14.73 |
| 边缘→图像 | EditAR | 13.91 |
| 分割→图像 | ControlNet++ | 19.29 |
| 分割→图像 | EditAR | 16.13 |
在所有三种翻译任务上均取得最佳 FID,超过专用模型。
关键发现¶
- DINOv2 蒸馏显著改善文本-图像对齐,尤其在目标物体定位上效果明显(对比 CLIP 蒸馏效果更好)
- CFG 引导强度 \(\eta = 3.0\) 是重建质量和编辑效果的最佳平衡点;过低导致文本响应弱,过高损害重建
- 作为统一模型与多个专用模型竞争,仍能在 FID 上全面胜出,说明自回归框架的统一性不以性能为代价
- 前馈方法中 InstructPix2Pix 虽有高 edited CLIP score,但背景破坏严重;EditAR 在整体 CLIP 和背景保留上更优
亮点与洞察¶
- 首次证明纯自回归模型可以统一条件生成:这是一个重要的实验性结论。之前自回归模型在条件生成上被扩散模型完全压制,本文证明只需简单的架构修改就能追上甚至超越专用扩散模型。
- 极简的统一设计:不同任务的区分只靠文本指令变化,不需要任何任务特定模块(对比 ControlNet 的 zero conv、UniControl 的 HyperNet)。越简单的统一方式越有扩展性。
- DINOv2 蒸馏的巧妙之处:不是替换损失函数,而是作为辅助正则化,只用一层 Conv 做特征对齐,几乎不增加训练负担,却能显著改善语义理解。这个 trick 可以广泛应用于其他 token 预测模型。
局限与展望¶
- 图像分辨率固定在 512×512,受限于 VQ-Autoencoder 的 16× 下采样(1024 tokens),更高分辨率需要更长序列
- 在背景保留上仍不如 inversion-based 方法(如 PnPInversion),因为自回归模型需要完全重新生成所有 token
- VQ 量化本身引入了压缩损失和视觉伪影,可能限制了细节保真度
- 未探索与 VAR(next-scale prediction)等更先进自回归范式的结合
相关工作与启发¶
- vs InstructPix2Pix: 同为前馈方法,但 IP2P 基于扩散、EditAR 基于自回归;EditAR 背景保留更好
- vs ControlNet/ControlNet++: 为每种条件需要训练单独适配器,EditAR 一个模型覆盖所有条件
- vs UniControl/UniControlNet: 也做统一条件生成但基于扩散,性能不如 EditAR
- vs LlamaGen: EditAR 在其基础上增加图像条件输入和蒸馏损失,从纯生成扩展到条件生成
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将自回归模型统一到条件生成,验证了可行性
- 实验充分度: ⭐⭐⭐⭐ 编辑和翻译两大类任务均有评测,但缺少用户研究
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法简洁易懂
- 价值: ⭐⭐⭐⭐ 为自回归模型在条件生成领域开辟了新方向
相关论文¶
- [NeurIPS 2025] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
- [AAAI 2026] Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models
- [CVPR 2025] Continuous Locomotive Crowd Behavior Generation
- [CVPR 2025] POSTA: A Go-to Framework for Customized Artistic Poster Generation
- [CVPR 2025] GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation