ViReS: Video Instance Repainting via Sketch and Text Guided Generation¶
会议: CVPR 2025
arXiv: 2411.16199
代码: 无
领域: 视频编辑 / 扩散模型
关键词: 视频实例重绘、草图引导、文本引导、时序一致性、扩散模型
一句话总结¶
提出ViReS框架,通过草图和文本双重引导实现视频中特定实例的重绘,利用时序注意力和实例掩码保持背景不变和时间一致性,在多种视频编辑场景下生成高质量结果。
研究背景与动机¶
领域现状¶
领域现状:领域现状**:视频编辑需求日益增长,但现有方法在精确控制特定实例的外观变化时面临挑战。文本引导的视频编辑(如Tune-A-Video)缺乏空间精度;图像修复方法(如ProPainter)缺乏语义控制。
核心矛盾:
现有痛点¶
现有痛点:文本引导提供语义信息但缺乏空间精确性
核心矛盾¶
核心矛盾:草图/mask提供空间信息但缺乏语义丰富性
解决思路¶
解决思路:视频编辑还需保证时间一致性和背景不变
核心思路:结合草图(空间控制)和文本(语义控制)双重引导,配合实例分割掩码限制编辑区域,在扩散模型框架中融入时序注意力确保时间一致性。
方法详解¶
整体框架¶
输入视频 + 目标实例草图序列 + 文本描述 → 实例掩码提取 → 掩码区域内草图+文本条件扩散生成 → 时序注意力保证帧间一致 → 背景融合输出。
关键设计¶
-
双重条件注入
- 草图通过ControlNet编码为空间条件,控制物体形状和姿态
- 文本通过CLIP编码为语义条件,控制纹理、颜色和风格
- 两种条件在交叉注意力层中融合
-
实例感知编辑
- 使用SAM/预计算的实例掩码限定编辑区域
- 背景区域保持原帧不变,仅掩码内区域重绘
- 边界处做Alpha blending避免接缝
-
时序一致性模块
- 在扩散U-Net中插入时序注意力层
- 相邻帧共享注意力键值对
- 光流引导的特征对齐确保运动连贯
损失函数 / 训练策略¶
标准扩散去噪损失 + 时序一致性正则化。在视频数据上微调预训练的图像扩散模型。
实验关键数据¶
主实验¶
| 方法 | CLIP Score↑ | 时序一致性↑ | FID↓ | 用户偏好↑ |
|---|---|---|---|---|
| Tune-A-Video | 0.27 | 0.89 | 45.3 | 18% |
| ControlVideo | 0.29 | 0.91 | 38.7 | 25% |
| ViReS | 0.32 | 0.94 | 32.1 | 57% |
消融实验¶
| 配置 | CLIP Score | 时序一致性 |
|---|---|---|
| 仅文本引导 | 0.28 | 0.92 |
| 仅草图引导 | 0.25 | 0.93 |
| 双重引导(完整) | 0.32 | 0.94 |
关键发现¶
- 双重引导在CLIP Score上比单一引导提升14-28%
- 时序注意力将帧间一致性从0.89提升到0.94
- 57%的用户偏好显著优于竞争方法
- 实例掩码有效防止背景泄漏
亮点与洞察¶
- 草图+文本双重引导互补——草图提供空间"在哪/什么形状",文本提供语义"什么样子"
- 实例级编辑保持背景完整,比全局编辑更实用
- 时序注意力的设计平衡了quality和consistency
局限与展望¶
- 需要每帧的草图序列输入,用户交互成本较高
- 对快速运动场景的时序一致性仍有挑战
- 长视频编辑的计算成本较高
- 与3D-aware方法的结合是未来方向
相关工作与启发¶
- vs Tune-A-Video:后者是文本-only全局编辑,本文支持实例级+(草图+文本)精确控制
- vs ControlVideo:ControlVideo用深度/边缘作条件,本文用草图更灵活
评分¶
- 新颖性: ⭐⭐⭐⭐ 双重引导实例级视频编辑有新意
- 实验充分度: ⭐⭐⭐⭐ 多场景验证,用户研究
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ 视频编辑的实用工具
相关论文¶
- [CVPR 2025] SketchVideo: Sketch-Based Video Generation and Editing
- [CVPR 2025] PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
- [CVPR 2025] Optical-Flow Guided Prompt Optimization for Coherent Video Generation
- [CVPR 2025] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- [CVPR 2025] Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency