ObjectMover: Generative Object Movement with Video Prior¶

会议: CVPR 2025
arXiv: 2503.08037
代码: 无（Todo）
领域: 扩散模型 / 图像编辑
关键词: 物体移动, 视频生成先验, 序列到序列, 游戏引擎合成数据, 多任务学习

一句话总结¶

ObjectMover 将图像中物体移动任务建模为序列到序列问题，通过微调视频生成模型来利用其跨帧物体一致性知识，结合游戏引擎合成的高质量数据对和多任务学习策略，实现了在复杂真实场景中的光照重整、遮挡补全和阴影/反射同步编辑。

研究背景与动机¶

领域现状：图像编辑中"移动物体到另一个位置"看似简单，实则是最困难的编辑任务之一。现有方法主要基于图像扩散模型（如 Stable Diffusion）进行修复/编辑，但这些方法往往将物体移动分解为"删除+粘贴"两步操作。

现有痛点：简单的"复制-粘贴"方法无法处理移动物体后带来的一系列级联效应——光照需要根据新位置重新整合、物体姿态需要根据透视调整、被遮挡区域需要准确补全、阴影和反射需要同步更新为新位置的正确状态，同时物体本身的身份和外观需要保持不变。现有图像编辑模型缺乏对这些物理一致性约束的理解。

核心矛盾：图像编辑模型只能看到单帧信息，缺乏对"同一物体在不同光照/视角下应该如何变化"的先验知识。而这种知识恰恰是视频模型在大量真实视频中已经学到的——视频中物体在不同帧之间移动时，光照、阴影、反射等效果的自然变化已经被视频生成模型隐式编码。

本文目标：构建一个能在复杂场景中可靠执行物体移动的生成模型，同时处理光照重整、透视调整、遮挡补全和效果同步等子问题。

切入角度：物体移动本质上可以看作一个"两帧视频"——第一帧是原图，第二帧是物体移动后的结果。视频生成模型天然地学习了跨帧物体一致性和动态效果演变，这正是物体移动所需的先验。

核心 idea：将物体移动重新定义为序列到序列预测问题，微调预训练的图片到视频模型来执行这个任务，用游戏引擎合成高质量训练数据。

方法详解¶

整体框架¶

ObjectMover 的 pipeline 包含三个核心组件：(1) 将物体移动建模为序列到序列问题，输入序列为原始图像（含物体掩码和目标位置信息），输出序列为物体移动后的结果图像；(2) 基于预训练的图片到视频扩散模型进行微调；(3) 使用游戏引擎构建合成训练数据，并通过多任务学习引入真实视频数据提升泛化能力。

关键设计¶

序列到序列问题建模:
- 功能：将物体移动转化为视频生成模型可以处理的格式
- 核心思路：将原始图像和目标结果视为一个两帧"视频"。输入包含原图、物体掩码（标记哪个物体需要移动）和目标位置掩码（标记移动到哪里）。模型被训练为给定第一帧（原图+控制信号），预测第二帧（移动后的结果）。这样，物体在新位置的光照重整、阴影变化、反射更新等都由视频模型的帧间一致性先验自然处理。
- 设计动机：视频生成模型在训练时观看了大量真实世界的多帧事件，已经隐式学会了"同一物体在不同时空位置下的视觉变化规律"。通过对齐任务格式，可以直接迁移这些先验知识。
游戏引擎合成数据管线:
- 功能：生成高质量的物体移动数据对，用于微调视频模型
- 核心思路：由于真实世界中不存在大规模的"物体移动前后"图像对数据集，作者使用现代游戏引擎（如 Unreal Engine）来合成数据。在游戏引擎中，可以精确控制物体位置并渲染出像素级准确的前后对比图，同时游戏引擎能正确模拟光照变化、阴影移动、反射更新等物理效果。合成场景覆盖室内外多种环境，包含不同材质和光照条件。
- 设计动机：游戏引擎提供了物理正确的渲染，可以生成任意数量的训练数据对。相比于从视频中提取数据对，合成数据的标注完全准确、无需人工标注，且可以控制难度和多样性。
多任务学习策略:
- 功能：在合成数据的基础上引入真实世界视频数据，弥合域差距
- 核心思路：除了核心的"物体移动"任务外，还同时训练相关的辅助任务——物体删除（object removal）和物体插入（object insertion）。这些辅助任务可以在真实世界的视频数据上进行训练（从视频中提取物体出现/消失的片段），从而在统一框架下同时利用合成数据和真实数据。所有任务共享同一个网络，通过不同的控制信号区分。
- 设计动机：纯合成数据训练的模型往往在真实场景中泛化不佳。多任务学习使模型能够接触真实世界的纹理、光照和场景分布，显著提升真实场景的表现。同时，辅助任务本身也是有价值的能力（ObjectMover 同时支持物体移动、删除和插入）。

损失函数 / 训练策略¶

模型基于预训练的图片到视频扩散模型微调，使用标准的扩散训练损失。训练数据包括游戏引擎合成的物体移动对和从真实视频提取的物体删除/插入对。通过任务控制信号（如掩码类型）让模型区分不同任务。

实验关键数据¶

主实验¶

方法	移动质量	光照一致性	遮挡补全	身份保持
Copy-Paste	低	无处理	无	完美
Paint-by-Example	中	部分	有	较差
AnyDoor	中	部分	有	中等
ObjectMover	高	好	好	好

消融实验¶

配置	生成质量	说明
Full model（合成+真实+多任务）	最优	完整方案
仅合成数据	明显下降	真实场景泛化差
仅图像模型（无视频先验）	显著下降	缺乏跨帧一致性知识
无多任务学习	中等下降	真实视频数据无法利用

关键发现¶

视频生成先验是关键：去掉视频先验（用图像扩散模型替代）后，模型在极端光照变化和阴影/反射同步上表现显著退化
合成数据+真实视频的组合远优于单一数据源：合成数据提供精确监督信号，真实视频提供域知识
多任务学习同时提升了三个任务的效果，物体删除和插入任务为主任务提供了互补的梯度信号
模型在极端光照场景（如室内强光/阴影）和反射表面（如水面、镜面）上表现尤为突出

亮点与洞察¶

视频模型作为物理先验：用视频生成模型的帧间一致性来编码物理效果（光照、阴影、反射）的变化规律，这是一个非常巧妙的 insight。不需要显式建模物理过程，视频模型已经隐式学会了
合成+真实的协同训练：通过多任务学习框架统一合成数据和真实数据，解决了合成数据域差距的经典问题。这种范式可以迁移到很多缺乏标注数据的图像编辑任务
一个模型三种能力：物体移动、删除、插入共享同一网络，展示了多任务学习在图像编辑中的潜力

局限与展望¶

代码和模型尚未开源，可复现性受限
依赖视频扩散模型，推理成本较高
对极小物体或高度复杂遮挡关系的处理能力有待验证
合成数据的场景多样性可能受限于游戏引擎的素材库
未来可以考虑引入 3D 感知来更准确地处理透视变化，或结合 LLM 实现语言指导的物体编辑

评分¶

新颖性: ⭐⭐⭐⭐ 将物体移动建模为序列到序列并利用视频先验的思路很有创意
实验充分度: ⭐⭐⭐⭐ 实验覆盖多种场景和对比方法，定性结果令人印象深刻
写作质量: ⭐⭐⭐⭐ 问题阐述清晰，方法描述流畅
价值: ⭐⭐⭐⭐ 为物体编辑任务提供了新范式，视频先验的利用思路有广泛启发价值