跳转至

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

会议: CVPR 2026
arXiv: 2603.02802
代码: https://github.com/WeChatCV/NovaEdit
领域: 图像生成 / 视频编辑
关键词: 无配对视频编辑, 双分支架构, 稀疏控制, 退化模拟训练, 多关键帧

一句话总结

提出 NOVA,首次形式化"稀疏控制、密集合成"范式用于视频编辑:稀疏分支从用户编辑的多关键帧提供语义引导,密集分支从原始视频注入运动和纹理信息;配合退化模拟训练策略实现无需配对数据的学习,在编辑保真度、运动保持和时序一致性上全面超越现有方法。

研究背景与动机

领域现状:扩散模型驱动的视频编辑方法发展迅速。数据驱动方法(Senorita-2M、VACE)需要大规模配对数据;首帧引导方法(AnyV2V、I2VEdit)将编辑从第一帧传播到整个视频,依赖运动补偿。

现有痛点:(a) 配对视频数据极难获取,合成数据含伪影影响泛化;(b) 仅依赖首帧的方法在相机/物体大运动下出现结构漂移;(c) 全局编辑效果尚可但局部编辑(特定区域修改)普遍失败——背景不一致、编辑区域伪影严重。

核心矛盾:控制信号(what to change)和合成信号(what to preserve)被耦合在同一路径中,模型难以区分"变什么"和"保什么"。

本文目标:解耦控制与合成,在无配对数据条件下实现高质量视频编辑。

切入角度:多关键帧提供更强的时空锚点,而原始视频本身就是最好的运动/纹理参考。

核心 idea:稀疏分支编码多编辑关键帧做语义引导,密集分支编码原始视频做运动/纹理注入,退化模拟实现自监督训练。

方法详解

整体框架

基于 WAN 2.1 VACE 1.3B 架构。主去噪分支 + 稀疏分支(VACE 块)+ 密集分支(DiT 副本 + 跨注意力)。训练时仅新增跨注意力模块可训练。

关键设计

  1. 双分支解耦架构:

    • 功能:将编辑控制和源视频保真解耦到两条路径
    • 核心思路:在第 \(l\) 层,\(\boldsymbol{z}_m^{(l)} \leftarrow \boldsymbol{z}_m^{(l)} + \underbrace{\mathcal{S}^{(l)}(\boldsymbol{z}_m^{(l)}, \boldsymbol{r})}_{\text{稀疏控制}} + \underbrace{\mathcal{D}^{(l)}(\boldsymbol{z}_m^{(l)}, \boldsymbol{z}_d^{(l)})}_{\text{密集合成}}\)。稀疏分支用 VACE 块注入退化关键帧序列,密集分支通过可训练跨注意力(主分支做 Q,密集分支做 K/V)注入原始视频信息
    • 设计动机:直接融合密集特征会干扰编辑;跨注意力让主分支主动查询需要的运动/纹理信息
  2. 退化模拟训练(无配对学习):

    • 锚定控制管线(Anchored Control Pipeline):从目标视频稀疏采样关键帧,施加随机退化(高斯模糊、仿射变换等)模拟编辑伪影:\(\hat{\boldsymbol{x}}_{k_i} = (\boldsymbol{1}-\boldsymbol{b}_{k_i})\odot\boldsymbol{x}_{k_i} + \boldsymbol{b}_{k_i}\odot\mathcal{D}_{aug}(\boldsymbol{x}_{k_i})\)。然后线性插值重建完整序列作为稀疏分支输入
    • 源保真管线(Source Fidelity Pipeline):对目标视频随机 Cut-and-Paste 生成伪源视频 \(\tilde{\boldsymbol{x}}_t = \boldsymbol{m}_t\odot\boldsymbol{y}_t + (1-\boldsymbol{m}_t)\odot\boldsymbol{x}_t\) 作为密集分支输入
    • 训练目标:标准去噪损失 \(\mathcal{L} = \mathbb{E}[\|\epsilon - \epsilon_\theta(\boldsymbol{z}_t, t, \tilde{\mathcal{X}}, \hat{\mathcal{X}})\|_2^2]\)
    • 设计动机:退化模拟让模型学习时序恢复和纹理传播;Cut-and-Paste 让模型学习从密集分支恢复运动和背景
  3. 一致性感知关键帧编辑(推理时):

    • 功能:确保多关键帧编辑间的视觉一致性
    • 核心思路:用 FLUX Kontext 编辑,第一帧标准编辑,后续关键帧以第一帧编辑结果为参考:\(\boldsymbol{x}_{k_i}^{edit} = \text{FLUX}(\boldsymbol{x}_{k_i}, \boldsymbol{x}_{k_0}^{edit}, \boldsymbol{m}_{k_i}, \mathcal{P})\)
    • 设计动机:独立编辑各帧会产生风格不一致、闪烁

损失函数 / 训练策略

  • 仅训练新增的跨注意力模块,基座冻结
  • 5000 高质量视频(Pexels),分辨率 832×480,帧长 81
  • AdamW, lr=1e-4, 8000 步
  • 推理使用关键帧间隔 10 帧

实验关键数据

主实验

方法 参数 逐视频微调 SR↑ TC↑ FC↑ BG-SSIM↑ MS↑ BC↑
AnyV2V 1.3B 0.75 0.918 0.840 0.858 0.973 0.939
I2VEdit 1.3B 0.83 0.931 0.846 0.900 0.991 0.941
VACE (多帧) 1.3B 0.90 0.928 0.840 0.913 0.989 0.940
Senorita-2M 5B 0.86 0.919 0.853 0.921 0.989 0.953
NOVA 1.3B 0.93 0.935 0.882 0.917 0.993 0.946

消融实验

配置 TC↑ FC↑ BG-SSIM↑ 说明
Full NOVA 0.935 0.882 0.917 完整模型
w/o Dense Branch 0.920 0.841 0.807 背景出现幻觉
w/o 一致性推理 0.92 0.85 0.88 独立编辑风格不一致
模糊输入密集分支 0.933 0.878 0.910 仍能恢复细节

关键发现

  • NOVA 成功率 93%,比需要微调的 LoRA-Edit(80%)高 13%
  • 密集分支是背景保持的关键:去掉后 BG-SSIM 从 0.917 → 0.807
  • 即使密集分支输入被模糊退化,模型仍能恢复比模糊输入更清晰的背景——说明密集分支做的是引导式合成而非简单复制
  • 关键帧间隔在 8-20 范围内鲁棒,不过拟合到训练间隔 10
  • 更换编辑模型(FLUX→Qwen-Image-Edit)性能变化小,说明框架通用

亮点与洞察

  • 稀疏/密集解耦是关键范式创新:首次明确将视频编辑中的控制和合成分离到独立路径。这个架构思想可推广到图像编辑、3D 编辑等领域
  • 退化模拟训练巧妙利用未配对数据实现自监督:通过模拟编辑伪影和背景不匹配让模型学习修复它们
  • 密集分支的引导式合成:实验证明它不是简单复制而是带物理理解的生成——这对理解扩散模型的能力很有启发

局限与展望

  • 性能受编辑关键帧质量影响,当前图像编辑模型在复杂编辑上仍有局限
  • 仅用 5000 视频训练,规模受限
  • 未支持文本驱动的全局风格迁移编辑

相关工作与启发

  • vs VACE: 统一框架但控制和合成耦合;NOVA 解耦后效果更好
  • vs I2VEdit/LoRA-Edit: 需逐视频微调 LoRA,不可扩展;NOVA 无需微调
  • vs Senorita-2M: 5B 参数+大规模配对数据;NOVA 1.3B+无配对即超越

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 稀疏控制密集合成范式首次形式化,退化模拟训练策略精巧
  • 实验充分度: ⭐⭐⭐⭐ 多基线+多指标+用户研究+消融
  • 写作质量: ⭐⭐⭐⭐ 问题拆解清晰,架构设计动机充分
  • 价值: ⭐⭐⭐⭐⭐ 为视频编辑提供了可扩展的无配对训练框架

相关论文