EditInfinity: Image Editing with Binary-Quantized Generative Models¶
会议: NeurIPS 2025 arXiv: 2510.20217 代码: 有 领域: 图像生成 / 图像编辑 / 自回归模型 关键词: 二值量化生成模型, Infinity, 图像反演, 分段线性平滑, 多尺度自回归编辑
一句话总结¶
提出 EditInfinity,首次将经典"图像反演-图像编辑"范式应用于二值量化自回归生成模型 Infinity,利用量化表示可获取精确中间监督的优势实现高精度图像反演,配合分段线性平滑核实现高保真编辑效果,在 PIE-Bench 上全面超越扩散模型基线。
研究背景与动机¶
文本驱动图像编辑的经典范式包含两步:(1)图像反演——逆推生成轨迹,(2)沿轨迹在目标文本引导下编辑。该范式的核心瓶颈在于:
- 扩散模型中图像反演不精确:无法获取源图像在生成轨迹上的精确中间表示,只能近似
- 近似误差会传播到编辑阶段,导致背景保持和语义对齐的 trade-off
关键洞察:二值量化生成模型(如 Infinity)将图像量化到离散潜空间建模,其天然特性是——任意图像的精确多尺度量化表示可直接获得。这意味着可以用精确中间结果作为监督信号进行图像反演优化,从根本上解决扩散模型的近似误差问题。
方法详解¶
整体框架¶
EditInfinity 基于 Infinity-2B(二值量化 T2I 模型)实现: 1. 图像反演:优化可学习文本嵌入 + LoRA 微调,以精确量化 token 为监督 2. 图像编辑:多尺度自回归 token 替换 + 分段线性平滑核确保无缝过渡
Infinity 预训练模型概要¶
- 图像 → 编码器 → 特征 F → 多尺度残差量化 {R_k}_{k=1}^K
- 每个尺度 k:残差 = F - F_{k-1},下采样到 (h_k, w_k),BSQ 二值量化
- 自回归建模:p(R_{1:K} | Ψ(t)) = Π_k p(R_k | R_{<k}, Ψ(t))
- Infinite-Vocabulary Classifier 将预测分解为 d 个独立二值分类器
关键设计¶
图像反演(Image Inversion with Exact Supervision)¶
核心优势:量化 token R_{1...K}^sou 可作为精确监督信号。
Textual Prompting Rectification(文本提示修正): - 源文本 prompt t_sou 通常与源图像不精确匹配 - 附加 20 个可学习 prompt token t_l + 指令 prompt t_ins - 冻结 Infinity 所有参数,仅优化 t_l - 交叉熵损失:L_inv = -1/K Σ_k (R_k^sou · log p(R_k^inv | R_{<k}^sou, Ψ(t))) - 精确量化 token 作为 ground truth,而非近似值
Image Style Preservation(图像风格保留): - 可学习 prompt 优化改善语义对齐,但可能改变全局风格 - 应用 LoRA 到 FFN 层,利用 low-rank 偏置的平滑全局修改特性 - 仅训练 20 步后停止 LoRA(防止过拟合导致忽略编辑意图) - 训练好的 ΔW 在编辑阶段保留,保持源图像风格一致性
图像编辑(Holistic Smoothing Strategy)¶
分段线性平滑核 G: - 基于 Manhattan 距离 d^{i,j} = min_{(x,y)∈M} (|i-x| + |j-y|) 计算权重 - 三段式设计: - d ≤ τ₁: G=0(编辑区域,完全使用目标内容) - τ₁ < d < τ₂: G 线性插值(平滑过渡带) - d ≥ τ₂: G=1(未编辑区域,完全保留源内容) - 默认 τ₁=1, τ₂=4,有效抑制边界拼接伪影
Multi-scale Autoregressive Editing(多尺度编辑): - 量化源图像得 R_{1:K}^sou - 在每个尺度 k: - Infinity 生成 R_k^tar(条件于 [Ψ(t_tar, t_ins), t_l]) - 上采样 R_k^tar 和 R_k^sou 到最大分辨率 - 在 G 引导下混合:E_k^tar = R_k^tar ⊙ (1-G) + R_k^sou ⊙ G - 若 k < K,下采样 E_k^tar 为 R̂k^tar 供下一尺度使用 - 混合后的语义和结构跨尺度传播 - 最终 E^tar 解码为编辑图像
损失函数 / 训练策略¶
- 反演阶段:交叉熵损失优化可学习 prompt(精确量化 token 作 GT)
- LoRA 仅在 FFN 层,训练 20 步后冻结
- 编辑阶段无需训练,纯推理执行
- 硬件:2× NVIDIA L20 (反演), 1× NVIDIA L20 (编辑)
实验关键数据¶
主实验¶
PIE-Bench 全量化对比
| 方法 | 基座 | PSNR↑ | LPIPS×10³↓ | SSIM×10²↑ | Whole CLIP↑ | Edited CLIP↑ | IR×10↑ |
|---|---|---|---|---|---|---|---|
| NTI (CVPR'23) | U-Net | 27.03 | 60.67 | 84.11 | 24.75 | 21.86 | 2.77 |
| PnP-Inv (ICLR'24) | U-Net | 22.46 | 106.06 | 79.68 | 25.41 | 22.62 | 4.17 |
| RF-Edit (ICML'25) | DiT | 23.22 | 131.18 | 81.44 | 25.22 | 22.40 | 5.18 |
| Gemini 2.0 | 商用 | 23.22 | 105.17 | 81.10 | 25.28 | 22.28 | 5.30 |
| EditInfinity | AR | 27.95 | 33.08 | 92.12 | 26.41 | 23.47 | 5.88 |
EditInfinity 在背景保持和文本对齐两个维度上全面领先。LPIPS 从 60.67 降至 33.08(最佳 U-Net 对比),PSNR 27.95(最高),IR 5.88(编辑成功率最高)。
基座模型公平性验证(GenEval Benchmark)
| 基座 | Overall |
|---|---|
| SD v1.4 | 0.42 |
| FLUX.1-dev | 0.66 |
| Infinity-2B | 0.66 |
Infinity 与 FLUX 生成能力相当(0.66 vs 0.66),但 EditInfinity 大幅超越 FLUX-based 方法,证明方法优势而非基座优势。
消融实验¶
平滑核消融(PIE-Bench random class)
| G 配置 | PSNR↑ | LPIPS×10³↓ | IR×10↑ |
|---|---|---|---|
| 无 G | 31.12 | 24.47 | 2.85 |
| Gaussian 核 | 28.15 | 32.91 | 4.61 |
| Linear 核 | 28.50 | 31.58 | 5.39 |
无 G 时 IR 最低(编辑效果差),Linear 核在编辑质量和背景保持间取得最佳平衡。
可学习 Prompt + LoRA 消融: - 去除两者:严重结构不一致 - 仅可学习 Prompt:文本对齐改善但全局风格偏移 - +LoRA (20步):风格恢复一致性 - +LoRA (过多步):过拟合,忽略编辑意图
关键发现¶
- 精确中间监督是 EditInfinity 成功的核心——量化模型的天然优势
- 编辑速度极快(3.64s/次),反演成本前置(107s)但支持多次编辑
- 分段线性核优于高斯核,平滑过渡效果更好
- LoRA 训练步数需严格控制(20步),过多导致过拟合
- 用户研究中 43.2% 偏好率最高
运行时间对比
| 方法 | 反演 | 单次编辑 |
|---|---|---|
| NTI | 95.5s | 10.3s |
| RF-Edit | 55.5s | 54.1s |
| EditInfinity | 107.1s | 3.6s |
反演开销中等偏高,但单次编辑仅 3.6 秒——比平均快 7 倍,非常适合迭代编辑工作流。
亮点与洞察¶
- 开辟新赛道:首次将自回归量化模型用于图像编辑,利用精确量化表示的天然优势
- 精确监督解决核心痛点:量化 token 作为 GT 训练反演,从根本上优于扩散模型的近似
- 极速迭代编辑:3.6s/次编辑速度非常实用,前置反演成本可被多次编辑摊薄
- 简洁的平滑核设计:Manhattan 距离 + 线性插值,无需学习参数,效果优于高斯核
- 公平评估设计完善:GenEval 验证基座模型能力相当,排除优势来源于更强基座的质疑
局限性 / 可改进方向¶
- 反演阶段 107 秒较慢(虽然单次编辑快),可探索更快的文本优化方案
- 依赖用户提供编辑掩码(标准设定但限制了自动化)
- LoRA 训练步数(20 步)需要手动调优,不同图像可能需要不同设定
- 当前仅在 Infinity-2B 上验证,可扩展到更大模型或其他量化架构
- 量化模型的生成多样性可能不如扩散模型
相关工作与启发¶
- Infinity (Han et al., 2024):BSQ 二值量化 + 多尺度残差预测,为 AR T2I 新基准
- I2SB 启发了"精确中间监督"思路——但 EditInfinity 的精确性是量化模型的固有特性
- 与 RF-Edit/StableFlow 等 DiT-based 方法形成扩散 vs 自回归的对比
- LoRA 微调作为风格保持手段,low-rank 偏置自然倾向全局平滑修改
评分¶
- 新颖性:⭐⭐⭐⭐⭐(首次将量化模型用于编辑,精确监督思路原创)
- 技术深度:⭐⭐⭐⭐(反演+编辑两阶段设计完整,各组件设计合理)
- 实验充分性:⭐⭐⭐⭐⭐(9 类编辑任务、8+ 对比方法、用户研究、运行时间、消融)
- 实用性:⭐⭐⭐⭐⭐(3.6s 单次编辑极具实用价值,代码开源)
- 表达清晰度:⭐⭐⭐⭐⭐(算法伪代码清晰,图示丰富,对比全面)