跳转至

ViReS: Video Instance Repainting via Sketch and Text Guided Generation

会议: CVPR 2025
arXiv: 2411.16199
代码: 无
领域: 视频编辑 / 扩散模型
关键词: 视频实例重绘、草图引导、文本引导、时序一致性、扩散模型

一句话总结

提出ViReS框架,通过草图和文本双重引导实现视频中特定实例的重绘,利用时序注意力和实例掩码保持背景不变和时间一致性,在多种视频编辑场景下生成高质量结果。

研究背景与动机

领域现状

领域现状:领域现状**:视频编辑需求日益增长,但现有方法在精确控制特定实例的外观变化时面临挑战。文本引导的视频编辑(如Tune-A-Video)缺乏空间精度;图像修复方法(如ProPainter)缺乏语义控制。

核心矛盾

现有痛点

现有痛点:文本引导提供语义信息但缺乏空间精确性

核心矛盾

核心矛盾:草图/mask提供空间信息但缺乏语义丰富性

解决思路

解决思路:视频编辑还需保证时间一致性和背景不变

核心思路:结合草图(空间控制)和文本(语义控制)双重引导,配合实例分割掩码限制编辑区域,在扩散模型框架中融入时序注意力确保时间一致性。

方法详解

整体框架

输入视频 + 目标实例草图序列 + 文本描述 → 实例掩码提取 → 掩码区域内草图+文本条件扩散生成 → 时序注意力保证帧间一致 → 背景融合输出。

关键设计

  1. 双重条件注入

    • 草图通过ControlNet编码为空间条件,控制物体形状和姿态
    • 文本通过CLIP编码为语义条件,控制纹理、颜色和风格
    • 两种条件在交叉注意力层中融合
  2. 实例感知编辑

    • 使用SAM/预计算的实例掩码限定编辑区域
    • 背景区域保持原帧不变,仅掩码内区域重绘
    • 边界处做Alpha blending避免接缝
  3. 时序一致性模块

    • 在扩散U-Net中插入时序注意力层
    • 相邻帧共享注意力键值对
    • 光流引导的特征对齐确保运动连贯

损失函数 / 训练策略

标准扩散去噪损失 + 时序一致性正则化。在视频数据上微调预训练的图像扩散模型。

实验关键数据

主实验

方法 CLIP Score↑ 时序一致性↑ FID↓ 用户偏好↑
Tune-A-Video 0.27 0.89 45.3 18%
ControlVideo 0.29 0.91 38.7 25%
ViReS 0.32 0.94 32.1 57%

消融实验

配置 CLIP Score 时序一致性
仅文本引导 0.28 0.92
仅草图引导 0.25 0.93
双重引导(完整) 0.32 0.94

关键发现

  • 双重引导在CLIP Score上比单一引导提升14-28%
  • 时序注意力将帧间一致性从0.89提升到0.94
  • 57%的用户偏好显著优于竞争方法
  • 实例掩码有效防止背景泄漏

亮点与洞察

  • 草图+文本双重引导互补——草图提供空间"在哪/什么形状",文本提供语义"什么样子"
  • 实例级编辑保持背景完整,比全局编辑更实用
  • 时序注意力的设计平衡了quality和consistency

局限与展望

  • 需要每帧的草图序列输入,用户交互成本较高
  • 对快速运动场景的时序一致性仍有挑战
  • 长视频编辑的计算成本较高
  • 与3D-aware方法的结合是未来方向

相关工作与启发

  • vs Tune-A-Video:后者是文本-only全局编辑,本文支持实例级+(草图+文本)精确控制
  • vs ControlVideo:ControlVideo用深度/边缘作条件,本文用草图更灵活

评分

  • 新颖性: ⭐⭐⭐⭐ 双重引导实例级视频编辑有新意
  • 实验充分度: ⭐⭐⭐⭐ 多场景验证,用户研究
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐⭐ 视频编辑的实用工具

相关论文