Generative Video Propagation¶

会议: CVPR 2025
arXiv: 2412.19761
代码: https://genprop.github.io/
领域: 视频理解
关键词: 视频传播, 图像到视频生成, 视频编辑, 目标去除, 选择性内容编码

一句话总结¶

提出 GenProp 框架，通过选择性内容编码器（SCE）与 I2V 生成模型的配合，将首帧编辑统一传播到整个视频，在一个模型中同时支持视频编辑、目标去除、目标插入、目标跟踪等多种视频任务。

研究背景与动机¶

领域现状：大规模视频生成模型（如 SORA、SVD）展现了强大的真实世界建模能力，但下游视频编辑任务通常各自为政——视频修复、外观编辑、目标插入等各需针对性的方法设计。传统视频传播方法依赖光流、深度图、辐射场等中间表示将稀疏帧上的编辑传播到其他帧，容易出现误差累积且泛化能力有限。

现有痛点：现有扩散视频编辑方法（InsV2V、AnyV2V 等）主要通过文本控制进行外观级别修改，难以处理物体形状的大幅变化。需要目标去除时通常要求为每一帧提供密集的 mask 标注（如 Propainter），对用户极不友好。很多方法还需要针对每个视频微调 LoRA，计算成本高且容易过拟合原始视频。

核心矛盾：如何在一个统一模型中，既能准确传播首帧的各种修改（编辑、去除、插入），又能保持视频中未修改区域与原始内容一致？关键难点在于让内容编码器"选择性"地保留未修改区域，同时完全释放 I2V 模型对修改区域的生成能力。

本文目标 定义"生成式视频传播"新问题，构建通用框架将首帧的任意修改传播到整个视频，同时保持其他区域的一致性。

切入角度：观察到许多视频任务（编辑、去除、插入、跟踪）都可以建模为"首帧修改 + 传播"问题。利用 I2V 生成模型天生的真实世界建模能力来传播修改，通过精心设计的编码器分离修改区域与未修改区域。

核心 idea：用选择性内容编码器编码原始视频中不变的部分，用 I2V 生成模型传播首帧修改的部分，通过区域感知损失和掩码预测头实现两者的有效解耦。

方法详解¶

整体框架¶

输入为原始视频 \(V\) 和编辑后的首帧 \(v'_1\)，输出为传播了首帧修改的完整视频 \(V'\)。架构包含两个核心组件：选择性内容编码器（SCE）编码原始视频中不变的部分，I2V 生成模型以编辑后首帧为条件进行传播生成。训练时使用从视频实例分割数据集合成的配对数据，合成数据只送入 SCE，原始视频送入 I2V 模型，防止学到合成数据的伪影。

关键设计¶

选择性内容编码器 (SCE):
- 功能：编码原始视频中未修改区域的信息，引导 I2V 模型保持这些区域不变
- 核心思路：复制 I2V 模型前 N 个 block 作为编码器，类似 ControlNet 架构。每个 encoder block 后通过零初始化的 MLP 注入层将特征加到 I2V 模型对应层。关键设计是双向信息交换——I2V 模型的特征也会反馈到 SCE 的输入端，让 SCE 能感知哪些区域已被修改，从而"选择性"地只编码未修改区域
- 设计动机：如果 SCE 不加区分地编码所有区域，会将修改区域的原始内容也传递给 I2V 模型，压制其生成能力导致原始物体"重新出现"。双向信息交换让 SCE 了解修改范围，实现选择性编码
区域感知损失 (RA Loss):
- 功能：有效解耦修改区域和未修改区域的训练信号
- 核心思路：将损失分为三部分——\(\mathcal{L}_{mask}\) 监督修改区域的生成质量，\(\mathcal{L}_{non-mask}\) 监督未修改区域的保持质量，\(\mathcal{L}_{grad}\) 通过有限差分近似最小化 SCE 在修改区域的梯度响应。总损失 \(\mathcal{L} = \mathcal{L}_{non-mask} + \lambda \mathcal{L}_{mask} + \beta \mathcal{L}_{grad} + \gamma \mathcal{L}_{MPD}\)，其中 \(\lambda=2.0\), \(\beta=1.0\), \(\gamma=1.0\)
- 设计动机：当修改区域面积很小时，标准全局损失会让 SCE 忽略修改区域而直接重建原始内容。分离两个区域的损失确保即使小面积编辑也能获得充分监督。梯度损失进一步惩罚 SCE 在修改区域的响应，强化选择性编码
掩码预测解码头 (MPD) + 合成数据策略:
- 功能：辅助模型识别需要传播修改的空间区域，并通过合成数据覆盖多种视频任务
- 核心思路：MPD 镜像 I2V 模型最后一个 block，加一个 MLP 输出逐帧修改区域掩码，用 MSE 损失监督。训练数据通过三种合成增强生成——Copy-and-Paste 模拟插入、Mask-and-Fill 模拟编辑/去除、Color Fill 模拟跟踪。每种增强对应一个任务嵌入注入模型
- 设计动机：没有 MPD 时注意力图常常退化，模型不确定应该修改哪个区域，导致去除不彻底（被去除的物体在后续帧重新出现）。Color Fill 增强虽然简单，但显式训练模型维持首帧修改在整个序列中的一致性，对大幅度形状变化的传播至关重要

损失函数 / 训练策略¶

总损失为区域感知的加权组合。SCE 和 MPD 可训练，I2V 模型冻结。训练使用 DiT 和 U-Net (SVD) 两种架构进行实验。CFG 值设为 20，数据增强比例为 Copy-and-Paste/Mask-and-Fill/Color Fill = 0.5/0.375/0.125。

实验关键数据¶

主实验¶

方法	PSNR_m ↑ (Classic)	CLIP-T ↑	CLIP-I ↑	GenProp 偏好 % (Align/Quality)
GenProp	33.837	0.3229	0.9825	-
InsV2V	28.999	0.3049	0.9737	60/60
AnyV2V	32.090	0.3050	0.9676	95.56/86.67
Pika	32.568	0.3226	0.9923	62.22/55.56
ReVideo	31.765	0.3196	0.9777	75.56/71.11

在 Challenging Test Set 上优势更明显（PSNR_m 32.163 vs 最佳基线 31.329），用户偏好率高达 82-98%。

消融实验¶

配置	CLIP-T ↑	CLIP-I ↑	说明
Full model	0.3316	0.9872	完整模型
w/o MPD	0.3252	0.9834	去掉掩码预测头，修改区域识别退化
w/o RA Loss	0.3261	0.9825	去掉区域感知损失，原始物体可能重新出现
w/o Color Fill	-	-	大幅形状变化的传播失败

关键发现¶

MPD 的效果在目标去除任务上最为显著：没有 MPD 时被去除的物体会在后续帧部分重现
RA Loss 解决了 SCE"过度编码"的问题：没有它时原始物体会逐渐渗透回编辑区域
Color Fill 增强对大幅度形状变化至关重要：将女孩变成小猫这类极端变化只有加了 Color Fill 才能成功传播
GenProp 在目标去除时能自动去除阴影和反射等关联效果，这是基于 mask 的传统方法（SAM+Propainter）做不到的
DiT 架构的视频生成质量优于 SVD 架构

亮点与洞察¶

将多个视频任务统一为"首帧编辑传播"的抽象：这一问题定义非常优雅，一个模型同时处理编辑、去除、插入、跟踪，避免了为每个任务单独设计管线的冗余
SCE 双向信息交换的设计巧妙：让编码器"知道"哪些被修改了才能选择性编码，这种反馈机制简单有效，可推广到任何需要条件编码器选择性注入的场景
无需密集 mask 标注：传统去除方法需要逐帧标注 mask，GenProp 只需编辑首帧即可自动传播，大幅简化用户工作流
利用视频生成预训练获得物理规则理解：GenProp 能跟踪物体的反射和阴影，这种能力来自 I2V 模型预训练中学到的物理常识

局限与展望¶

目前仅支持首帧编辑传播，无法处理视频中间帧的编辑传播
视频长度受 I2V 模型帧数限制（32/64/128 帧），长视频需要分段处理
追踪精度不如专用追踪模型（如 SAM-V2），且推理速度较慢
合成训练数据可能无法覆盖所有真实编辑场景，极端情况下可能失败
未来可以考虑扩展到多关键帧编辑和更多下游任务

评分¶

新颖性: ⭐⭐⭐⭐ 将视频任务统一为传播问题的定义新颖，SCE+RA Loss 的设计有效但组件设计相对常规
实验充分度: ⭐⭐⭐⭐⭐ 三个子任务、多个测试集、用户调研、充分消融，实验非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，但部分设计选择的讨论可以更深入
价值: ⭐⭐⭐⭐⭐ 统一框架处理多种视频任务，实用性极强，对行业工作流有直接影响