跳转至

Generative Video Propagation

会议: CVPR 2025
arXiv: 2412.19761
代码: https://genprop.github.io/
领域: 视频理解
关键词: 视频传播, 图像到视频生成, 视频编辑, 目标去除, 选择性内容编码

一句话总结

提出 GenProp 框架,通过选择性内容编码器(SCE)与 I2V 生成模型的配合,将首帧编辑统一传播到整个视频,在一个模型中同时支持视频编辑、目标去除、目标插入、目标跟踪等多种视频任务。

研究背景与动机

领域现状:大规模视频生成模型(如 SORA、SVD)展现了强大的真实世界建模能力,但下游视频编辑任务通常各自为政——视频修复、外观编辑、目标插入等各需针对性的方法设计。传统视频传播方法依赖光流、深度图、辐射场等中间表示将稀疏帧上的编辑传播到其他帧,容易出现误差累积且泛化能力有限。

现有痛点:现有扩散视频编辑方法(InsV2V、AnyV2V 等)主要通过文本控制进行外观级别修改,难以处理物体形状的大幅变化。需要目标去除时通常要求为每一帧提供密集的 mask 标注(如 Propainter),对用户极不友好。很多方法还需要针对每个视频微调 LoRA,计算成本高且容易过拟合原始视频。

核心矛盾:如何在一个统一模型中,既能准确传播首帧的各种修改(编辑、去除、插入),又能保持视频中未修改区域与原始内容一致?关键难点在于让内容编码器"选择性"地保留未修改区域,同时完全释放 I2V 模型对修改区域的生成能力。

本文目标 定义"生成式视频传播"新问题,构建通用框架将首帧的任意修改传播到整个视频,同时保持其他区域的一致性。

切入角度:观察到许多视频任务(编辑、去除、插入、跟踪)都可以建模为"首帧修改 + 传播"问题。利用 I2V 生成模型天生的真实世界建模能力来传播修改,通过精心设计的编码器分离修改区域与未修改区域。

核心 idea:用选择性内容编码器编码原始视频中不变的部分,用 I2V 生成模型传播首帧修改的部分,通过区域感知损失和掩码预测头实现两者的有效解耦。

方法详解

整体框架

输入为原始视频 \(V\) 和编辑后的首帧 \(v'_1\),输出为传播了首帧修改的完整视频 \(V'\)。架构包含两个核心组件:选择性内容编码器(SCE)编码原始视频中不变的部分,I2V 生成模型以编辑后首帧为条件进行传播生成。训练时使用从视频实例分割数据集合成的配对数据,合成数据只送入 SCE,原始视频送入 I2V 模型,防止学到合成数据的伪影。

关键设计

  1. 选择性内容编码器 (SCE):

    • 功能:编码原始视频中未修改区域的信息,引导 I2V 模型保持这些区域不变
    • 核心思路:复制 I2V 模型前 N 个 block 作为编码器,类似 ControlNet 架构。每个 encoder block 后通过零初始化的 MLP 注入层将特征加到 I2V 模型对应层。关键设计是双向信息交换——I2V 模型的特征也会反馈到 SCE 的输入端,让 SCE 能感知哪些区域已被修改,从而"选择性"地只编码未修改区域
    • 设计动机:如果 SCE 不加区分地编码所有区域,会将修改区域的原始内容也传递给 I2V 模型,压制其生成能力导致原始物体"重新出现"。双向信息交换让 SCE 了解修改范围,实现选择性编码
  2. 区域感知损失 (RA Loss):

    • 功能:有效解耦修改区域和未修改区域的训练信号
    • 核心思路:将损失分为三部分——\(\mathcal{L}_{mask}\) 监督修改区域的生成质量,\(\mathcal{L}_{non-mask}\) 监督未修改区域的保持质量,\(\mathcal{L}_{grad}\) 通过有限差分近似最小化 SCE 在修改区域的梯度响应。总损失 \(\mathcal{L} = \mathcal{L}_{non-mask} + \lambda \mathcal{L}_{mask} + \beta \mathcal{L}_{grad} + \gamma \mathcal{L}_{MPD}\),其中 \(\lambda=2.0\), \(\beta=1.0\), \(\gamma=1.0\)
    • 设计动机:当修改区域面积很小时,标准全局损失会让 SCE 忽略修改区域而直接重建原始内容。分离两个区域的损失确保即使小面积编辑也能获得充分监督。梯度损失进一步惩罚 SCE 在修改区域的响应,强化选择性编码
  3. 掩码预测解码头 (MPD) + 合成数据策略:

    • 功能:辅助模型识别需要传播修改的空间区域,并通过合成数据覆盖多种视频任务
    • 核心思路:MPD 镜像 I2V 模型最后一个 block,加一个 MLP 输出逐帧修改区域掩码,用 MSE 损失监督。训练数据通过三种合成增强生成——Copy-and-Paste 模拟插入、Mask-and-Fill 模拟编辑/去除、Color Fill 模拟跟踪。每种增强对应一个任务嵌入注入模型
    • 设计动机:没有 MPD 时注意力图常常退化,模型不确定应该修改哪个区域,导致去除不彻底(被去除的物体在后续帧重新出现)。Color Fill 增强虽然简单,但显式训练模型维持首帧修改在整个序列中的一致性,对大幅度形状变化的传播至关重要

损失函数 / 训练策略

总损失为区域感知的加权组合。SCE 和 MPD 可训练,I2V 模型冻结。训练使用 DiT 和 U-Net (SVD) 两种架构进行实验。CFG 值设为 20,数据增强比例为 Copy-and-Paste/Mask-and-Fill/Color Fill = 0.5/0.375/0.125。

实验关键数据

主实验

方法 PSNR_m ↑ (Classic) CLIP-T ↑ CLIP-I ↑ GenProp 偏好 % (Align/Quality)
GenProp 33.837 0.3229 0.9825 -
InsV2V 28.999 0.3049 0.9737 60/60
AnyV2V 32.090 0.3050 0.9676 95.56/86.67
Pika 32.568 0.3226 0.9923 62.22/55.56
ReVideo 31.765 0.3196 0.9777 75.56/71.11

在 Challenging Test Set 上优势更明显(PSNR_m 32.163 vs 最佳基线 31.329),用户偏好率高达 82-98%。

消融实验

配置 CLIP-T ↑ CLIP-I ↑ 说明
Full model 0.3316 0.9872 完整模型
w/o MPD 0.3252 0.9834 去掉掩码预测头,修改区域识别退化
w/o RA Loss 0.3261 0.9825 去掉区域感知损失,原始物体可能重新出现
w/o Color Fill - - 大幅形状变化的传播失败

关键发现

  • MPD 的效果在目标去除任务上最为显著:没有 MPD 时被去除的物体会在后续帧部分重现
  • RA Loss 解决了 SCE"过度编码"的问题:没有它时原始物体会逐渐渗透回编辑区域
  • Color Fill 增强对大幅度形状变化至关重要:将女孩变成小猫这类极端变化只有加了 Color Fill 才能成功传播
  • GenProp 在目标去除时能自动去除阴影和反射等关联效果,这是基于 mask 的传统方法(SAM+Propainter)做不到的
  • DiT 架构的视频生成质量优于 SVD 架构

亮点与洞察

  • 将多个视频任务统一为"首帧编辑传播"的抽象:这一问题定义非常优雅,一个模型同时处理编辑、去除、插入、跟踪,避免了为每个任务单独设计管线的冗余
  • SCE 双向信息交换的设计巧妙:让编码器"知道"哪些被修改了才能选择性编码,这种反馈机制简单有效,可推广到任何需要条件编码器选择性注入的场景
  • 无需密集 mask 标注:传统去除方法需要逐帧标注 mask,GenProp 只需编辑首帧即可自动传播,大幅简化用户工作流
  • 利用视频生成预训练获得物理规则理解:GenProp 能跟踪物体的反射和阴影,这种能力来自 I2V 模型预训练中学到的物理常识

局限与展望

  • 目前仅支持首帧编辑传播,无法处理视频中间帧的编辑传播
  • 视频长度受 I2V 模型帧数限制(32/64/128 帧),长视频需要分段处理
  • 追踪精度不如专用追踪模型(如 SAM-V2),且推理速度较慢
  • 合成训练数据可能无法覆盖所有真实编辑场景,极端情况下可能失败
  • 未来可以考虑扩展到多关键帧编辑和更多下游任务

相关工作与启发

  • vs AnyV2V:同为首帧编辑传播方法,但 AnyV2V 是 training-free 方案泛化能力有限,GenProp 通过专门训练 SCE 获得更强的保持能力和传播质量
  • vs ReVideo:ReVideo 基于 SVD 使用黑色方块遮罩+运动轨迹控制,信息损失大且边界模糊;GenProp 通过 SCE 隐式保持未修改区域,无需显式遮罩
  • vs SAM+Propainter:传统级联方案需要密集 mask 且无法去除阴影/反射,GenProp 利用生成先验一步到位

评分

  • 新颖性: ⭐⭐⭐⭐ 将视频任务统一为传播问题的定义新颖,SCE+RA Loss 的设计有效但组件设计相对常规
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个子任务、多个测试集、用户调研、充分消融,实验非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但部分设计选择的讨论可以更深入
  • 价值: ⭐⭐⭐⭐⭐ 统一框架处理多种视频任务,实用性极强,对行业工作流有直接影响

相关论文