跳转至

Group Editing: Edit Multiple Images in One Go

会议: CVPR 2026
arXiv: 2603.22883
代码: https://group-editing.github.io/
领域: 扩散模型 / 图像编辑
关键词: 多图一致编辑, 视频扩散先验, 几何对应, RoPE位置编码, 伪视频

一句话总结

本文提出 GroupEditing,将一组相关图像重构为伪视频帧,结合 VGGT 提供的显式几何对应和视频模型的隐式时序先验,通过 Ge-RoPE 和 Identity-RoPE 两种增强位置编码实现跨视角一致的群组图像编辑,在视觉质量、编辑一致性和语义对齐上显著优于现有方法。

研究背景与动机

  1. 领域现状:现有图像编辑方法(如 InstructPix2Pix、ControlNet 等)主要聚焦单图编辑,在虚拟内容创作、数字商务等场景中,用户经常需要对同一主体的多视角图像进行一致修改,例如将数字角色的衣服统一换色、对商品多角度图进行统一风格化。
  2. 现有痛点:逐图编辑会导致外观和结构的不一致;基于优化的传播方法(如先编辑一张再传播)泛化能力差、容易产生伪影;无优化方法(如 Edicho)依赖语义对应和跟踪工具,只能处理少量图像。
  3. 核心矛盾:在几何复杂场景(如目标发生旋转、遮挡、形变)中,仅靠注意力特征的语义匹配不够精确——"识别不同视角下的左眼"或"跟踪 T 恤上旋转 30° 的 logo"对现有方法来说非常困难。
  4. 本文目标:如何在一组几何多样的相关图像中建立可靠的跨图对应关系,实现一次指令、多图一致编辑?
  5. 切入角度:作者做了两个关键观察——(1) 隐式对应:视频模型天然具有时序一致性先验,将图像组视为"伪视频"可继承该先验;(2) 显式对应:仅靠视频模型的隐式对应在几何复杂场景下不够,需要 VGGT 提供的密集几何匹配作为补充。
  6. 核心 idea:将多图编辑问题转化为伪视频生成问题,融合显式几何对应(VGGT)与隐式时序先验(视频扩散模型),通过专门设计的位置编码注入对应信息。

方法详解

整体框架

输入为一组相关图像及其对应的分割掩码和文本编辑指令。首先,通过 VAE 编码器将图像编码到潜在空间,并按时间维度排列为伪视频序列。然后在基于 WAN-2.1 视频扩散模型的 Transformer 骨干中,注入两种增强的 RoPE 位置编码——Ge-RoPE 用于跨视角几何对齐,Identity-RoPE 用于单图内目标的身份保持。同时通过 VGGT 提取显式几何特征 token,拼接到潜在 token 序列中参与自注意力计算。最后解码生成编辑后的多视角一致图像。

关键设计

  1. 数据构建流水线 (GroupEditData):

    • 功能:构建大规模多图编辑训练数据集
    • 核心思路:使用 Gemini 2.5 根据人工编写的文本指令生成图像组(18248组),然后通过 SAM + Grounding DINO 进行目标分割获取掩码,再用 Qwen-VL-Max 做一致性评估 + 美学评估进行质量筛选,最终保留 7517 组高质量数据。每组包含图像、掩码、整图描述和分割区域描述。
    • 设计动机:现有缺乏大规模多图编辑训练对,该流水线是使训练成为可能的关键基础设施。
  2. Geometry-enhanced RoPE (Ge-RoPE):

    • 功能:将 VGGT 提取的显式几何对应信息注入到位置编码中,实现跨视角的精细空间对齐
    • 核心思路:从 VGGT 获取像素级位移场 \(\Delta(h,w) = (\Delta_h, \Delta_w)\),将其缩放到潜在空间分辨率后用高斯核平滑(\(\mu=21, \sigma=11\)),优先保留高置信度的对应关系。然后将平滑后的位移加到原始空间网格索引上构造warped网格 \(\tilde{h} = h + \Delta_h^{\text{smooth}}\),用最近邻索引预计算的频率bank,生成几何感知的 RoPE 编码。
    • 设计动机:视频模型的隐式对应在几何复杂场景下不够准确,Ge-RoPE 通过显式的位移场告诉模型"图像 A 中的位置 (h,w) 对应图像 B 中的哪个位置",大幅提升空间对齐精度。
  3. Identity-RoPE:

    • 功能:确保同一目标在不同图像中的身份一致性
    • 核心思路:通过分割掩码找到每张图像中目标的最小外接矩形 \(\mathcal{R}_t\),将矩形内的像素坐标归一化为相对于矩形原点的局部坐标 \((\tilde{h}, \tilde{w}) = (h - y_1^{(t)}, w - x_1^{(t)})\)。这样不同图像中的同一目标区域会获得相同的位置编码,无论它们在图像中的绝对位置如何。
    • 设计动机:不同视角下目标可能出现在图像的不同位置,标准位置编码会让模型认为它们是不同的东西。Identity-RoPE 通过坐标归一化让"所有图中的猫脸"共享相同的位置信号,从而保持身份一致。

损失函数 / 训练策略

在 WAN-2.1(基于 Transformer 的视频扩散模型)上进行训练,使用 AdamW 优化器(权重衰减 0.01,学习率 \(1 \times 10^{-4}\)),分辨率 \(528 \times 528\),batch size 8,8 块 A800 GPU。训练目标为标准的速度场预测损失。

实验关键数据

主实验

方法 CLIP-Score↑ Aesthetic↑ DINO-Score↑ 编辑一致性↑ PSNR↑
Anydoor 0.2728 4.72 0.7208 0.8697 0.6182
OminiControl 0.2902 5.10 0.7326 0.8676 0.6457
Edicho 0.3059 4.89 0.8080 0.8988 0.6935
GroupEditing 0.3122 5.39 0.8168 0.9239 0.7624

用户研究(1=最好,4=最差的排名):GroupEditing 在身份一致性(1.67)、美学(1.46)、外观保真度(1.50)和综合(1.47)四个维度均排名第一。

消融实验

配置 CLIP-Score↑ Aesthetic↑ DINO-Score↑ 编辑一致性↑
w/o VGGT 0.2728 4.72 0.7208 0.8616
w/o Ge-RoPE 0.2902 4.89 0.7326 0.8697
w/o Identity-RoPE 0.2902 4.89 0.7326 0.9108
Full model 0.3122 5.39 0.8168 0.9239

关键发现

  • VGGT 显式几何特征贡献最大:去掉后 DINO-Score 从 0.8168 降到 0.7208,编辑一致性从 0.9239 降到 0.8616
  • Identity-RoPE 主要提升编辑一致性(0.9108→0.9239),对视觉质量的提升较小
  • 编辑结果可直接用于 DreamBooth/LoRA 个性化和 Must3R 3D 重建,验证了跨视角一致性

亮点与洞察

  • 伪视频重构思路非常巧妙:将多图编辑问题转化为视频编辑问题,"免费"继承了视频模型的时序一致性先验,这是一种优雅的问题转换
  • 显式+隐式对应的融合机制:Ge-RoPE 通过位置编码注入几何信息而非修改注意力权重,是一种轻量且有效的融合方式
  • 数据构建流水线的工程价值:从文本→生成→筛选→标注的全自动流水线,可迁移到其他需要配对数据的任务中

局限与展望

  • 训练数据来自 Gemini 生成而非真实多视角图像,可能限制在真实场景中的泛化
  • 依赖 VGGT 提供的几何对应质量,当 VGGT 估计不准时编辑质量可能下降
  • 分辨率固定在 528×528,对高分辨率场景的扩展未验证
  • 目前需要提供分割掩码作为输入,增加了使用门槛

相关工作与启发

  • vs Edicho: Edicho 用语义对应+跟踪工具做零样本一致编辑,但受限于少量图像;GroupEditing 是首个训练范式,通过数据和模型双管齐下扩展到更大规模
  • vs Frame2Frame/ChronoEdit: 它们利用视频模型做单图编辑的时序一致性增强;GroupEditing 进一步将多图作为伪视频统一处理
  • vs ControlNet/T2I-Adapter: 这些是通用单图条件控制方法;GroupEditing 专注于多图间的一致性约束

评分

  • 新颖性: ⭐⭐⭐⭐ 伪视频重构+双RoPE注入的组合很有创意,但各组件并非全新
  • 实验充分度: ⭐⭐⭐⭐ 定量+定性+用户研究+消融+下游应用验证,比较全面
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图示丰富
  • 价值: ⭐⭐⭐⭐ 多图一致编辑是实际需求,首个训练框架具有开创意义

相关论文