Group Editing: Edit Multiple Images in One Go¶
会议: CVPR 2026
arXiv: 2603.22883
代码: https://group-editing.github.io/
领域: 扩散模型 / 图像编辑
关键词: 多图一致编辑, 视频扩散先验, 几何对应, RoPE位置编码, 伪视频
一句话总结¶
本文提出 GroupEditing,将一组相关图像重构为伪视频帧,结合 VGGT 提供的显式几何对应和视频模型的隐式时序先验,通过 Ge-RoPE 和 Identity-RoPE 两种增强位置编码实现跨视角一致的群组图像编辑,在视觉质量、编辑一致性和语义对齐上显著优于现有方法。
研究背景与动机¶
- 领域现状:现有图像编辑方法(如 InstructPix2Pix、ControlNet 等)主要聚焦单图编辑,在虚拟内容创作、数字商务等场景中,用户经常需要对同一主体的多视角图像进行一致修改,例如将数字角色的衣服统一换色、对商品多角度图进行统一风格化。
- 现有痛点:逐图编辑会导致外观和结构的不一致;基于优化的传播方法(如先编辑一张再传播)泛化能力差、容易产生伪影;无优化方法(如 Edicho)依赖语义对应和跟踪工具,只能处理少量图像。
- 核心矛盾:在几何复杂场景(如目标发生旋转、遮挡、形变)中,仅靠注意力特征的语义匹配不够精确——"识别不同视角下的左眼"或"跟踪 T 恤上旋转 30° 的 logo"对现有方法来说非常困难。
- 本文目标:如何在一组几何多样的相关图像中建立可靠的跨图对应关系,实现一次指令、多图一致编辑?
- 切入角度:作者做了两个关键观察——(1) 隐式对应:视频模型天然具有时序一致性先验,将图像组视为"伪视频"可继承该先验;(2) 显式对应:仅靠视频模型的隐式对应在几何复杂场景下不够,需要 VGGT 提供的密集几何匹配作为补充。
- 核心 idea:将多图编辑问题转化为伪视频生成问题,融合显式几何对应(VGGT)与隐式时序先验(视频扩散模型),通过专门设计的位置编码注入对应信息。
方法详解¶
整体框架¶
输入为一组相关图像及其对应的分割掩码和文本编辑指令。首先,通过 VAE 编码器将图像编码到潜在空间,并按时间维度排列为伪视频序列。然后在基于 WAN-2.1 视频扩散模型的 Transformer 骨干中,注入两种增强的 RoPE 位置编码——Ge-RoPE 用于跨视角几何对齐,Identity-RoPE 用于单图内目标的身份保持。同时通过 VGGT 提取显式几何特征 token,拼接到潜在 token 序列中参与自注意力计算。最后解码生成编辑后的多视角一致图像。
关键设计¶
-
数据构建流水线 (GroupEditData):
- 功能:构建大规模多图编辑训练数据集
- 核心思路:使用 Gemini 2.5 根据人工编写的文本指令生成图像组(18248组),然后通过 SAM + Grounding DINO 进行目标分割获取掩码,再用 Qwen-VL-Max 做一致性评估 + 美学评估进行质量筛选,最终保留 7517 组高质量数据。每组包含图像、掩码、整图描述和分割区域描述。
- 设计动机:现有缺乏大规模多图编辑训练对,该流水线是使训练成为可能的关键基础设施。
-
Geometry-enhanced RoPE (Ge-RoPE):
- 功能:将 VGGT 提取的显式几何对应信息注入到位置编码中,实现跨视角的精细空间对齐
- 核心思路:从 VGGT 获取像素级位移场 \(\Delta(h,w) = (\Delta_h, \Delta_w)\),将其缩放到潜在空间分辨率后用高斯核平滑(\(\mu=21, \sigma=11\)),优先保留高置信度的对应关系。然后将平滑后的位移加到原始空间网格索引上构造warped网格 \(\tilde{h} = h + \Delta_h^{\text{smooth}}\),用最近邻索引预计算的频率bank,生成几何感知的 RoPE 编码。
- 设计动机:视频模型的隐式对应在几何复杂场景下不够准确,Ge-RoPE 通过显式的位移场告诉模型"图像 A 中的位置 (h,w) 对应图像 B 中的哪个位置",大幅提升空间对齐精度。
-
Identity-RoPE:
- 功能:确保同一目标在不同图像中的身份一致性
- 核心思路:通过分割掩码找到每张图像中目标的最小外接矩形 \(\mathcal{R}_t\),将矩形内的像素坐标归一化为相对于矩形原点的局部坐标 \((\tilde{h}, \tilde{w}) = (h - y_1^{(t)}, w - x_1^{(t)})\)。这样不同图像中的同一目标区域会获得相同的位置编码,无论它们在图像中的绝对位置如何。
- 设计动机:不同视角下目标可能出现在图像的不同位置,标准位置编码会让模型认为它们是不同的东西。Identity-RoPE 通过坐标归一化让"所有图中的猫脸"共享相同的位置信号,从而保持身份一致。
损失函数 / 训练策略¶
在 WAN-2.1(基于 Transformer 的视频扩散模型)上进行训练,使用 AdamW 优化器(权重衰减 0.01,学习率 \(1 \times 10^{-4}\)),分辨率 \(528 \times 528\),batch size 8,8 块 A800 GPU。训练目标为标准的速度场预测损失。
实验关键数据¶
主实验¶
| 方法 | CLIP-Score↑ | Aesthetic↑ | DINO-Score↑ | 编辑一致性↑ | PSNR↑ |
|---|---|---|---|---|---|
| Anydoor | 0.2728 | 4.72 | 0.7208 | 0.8697 | 0.6182 |
| OminiControl | 0.2902 | 5.10 | 0.7326 | 0.8676 | 0.6457 |
| Edicho | 0.3059 | 4.89 | 0.8080 | 0.8988 | 0.6935 |
| GroupEditing | 0.3122 | 5.39 | 0.8168 | 0.9239 | 0.7624 |
用户研究(1=最好,4=最差的排名):GroupEditing 在身份一致性(1.67)、美学(1.46)、外观保真度(1.50)和综合(1.47)四个维度均排名第一。
消融实验¶
| 配置 | CLIP-Score↑ | Aesthetic↑ | DINO-Score↑ | 编辑一致性↑ |
|---|---|---|---|---|
| w/o VGGT | 0.2728 | 4.72 | 0.7208 | 0.8616 |
| w/o Ge-RoPE | 0.2902 | 4.89 | 0.7326 | 0.8697 |
| w/o Identity-RoPE | 0.2902 | 4.89 | 0.7326 | 0.9108 |
| Full model | 0.3122 | 5.39 | 0.8168 | 0.9239 |
关键发现¶
- VGGT 显式几何特征贡献最大:去掉后 DINO-Score 从 0.8168 降到 0.7208,编辑一致性从 0.9239 降到 0.8616
- Identity-RoPE 主要提升编辑一致性(0.9108→0.9239),对视觉质量的提升较小
- 编辑结果可直接用于 DreamBooth/LoRA 个性化和 Must3R 3D 重建,验证了跨视角一致性
亮点与洞察¶
- 伪视频重构思路非常巧妙:将多图编辑问题转化为视频编辑问题,"免费"继承了视频模型的时序一致性先验,这是一种优雅的问题转换
- 显式+隐式对应的融合机制:Ge-RoPE 通过位置编码注入几何信息而非修改注意力权重,是一种轻量且有效的融合方式
- 数据构建流水线的工程价值:从文本→生成→筛选→标注的全自动流水线,可迁移到其他需要配对数据的任务中
局限与展望¶
- 训练数据来自 Gemini 生成而非真实多视角图像,可能限制在真实场景中的泛化
- 依赖 VGGT 提供的几何对应质量,当 VGGT 估计不准时编辑质量可能下降
- 分辨率固定在 528×528,对高分辨率场景的扩展未验证
- 目前需要提供分割掩码作为输入,增加了使用门槛
相关工作与启发¶
- vs Edicho: Edicho 用语义对应+跟踪工具做零样本一致编辑,但受限于少量图像;GroupEditing 是首个训练范式,通过数据和模型双管齐下扩展到更大规模
- vs Frame2Frame/ChronoEdit: 它们利用视频模型做单图编辑的时序一致性增强;GroupEditing 进一步将多图作为伪视频统一处理
- vs ControlNet/T2I-Adapter: 这些是通用单图条件控制方法;GroupEditing 专注于多图间的一致性约束
评分¶
- 新颖性: ⭐⭐⭐⭐ 伪视频重构+双RoPE注入的组合很有创意,但各组件并非全新
- 实验充分度: ⭐⭐⭐⭐ 定量+定性+用户研究+消融+下游应用验证,比较全面
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图示丰富
- 价值: ⭐⭐⭐⭐ 多图一致编辑是实际需求,首个训练框架具有开创意义
相关论文¶
- [CVPR 2026] Language-Free Generative Editing from One Visual Example
- [CVPR 2026] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing
- [CVPR 2026] ChordEdit: One-Step Low-Energy Transport for Image Editing
- [CVPR 2026] SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images
- [CVPR 2025] h-Edit: Effective and Flexible Diffusion-Based Editing via Doob's h-Transform