ViReS: Video Instance Repainting via Sketch and Text Guided Generation¶

会议: CVPR 2025
arXiv: 2411.16199
代码: 无
领域: 视频编辑 / 扩散模型
关键词: 视频实例重绘、草图引导、文本引导、时序一致性、扩散模型

一句话总结¶

提出ViReS框架，通过草图和文本双重引导实现视频中特定实例的重绘，利用时序注意力和实例掩码保持背景不变和时间一致性，在多种视频编辑场景下生成高质量结果。

研究背景与动机¶

领域现状¶

领域现状：领域现状**：视频编辑需求日益增长，但现有方法在精确控制特定实例的外观变化时面临挑战。文本引导的视频编辑（如Tune-A-Video）缺乏空间精度；图像修复方法（如ProPainter）缺乏语义控制。

核心矛盾：

现有痛点¶

现有痛点：文本引导提供语义信息但缺乏空间精确性

核心矛盾¶

核心矛盾：草图/mask提供空间信息但缺乏语义丰富性

解决思路¶

解决思路：视频编辑还需保证时间一致性和背景不变

核心思路：结合草图（空间控制）和文本（语义控制）双重引导，配合实例分割掩码限制编辑区域，在扩散模型框架中融入时序注意力确保时间一致性。

方法详解¶

整体框架¶

输入视频 + 目标实例草图序列 + 文本描述 → 实例掩码提取 → 掩码区域内草图+文本条件扩散生成 → 时序注意力保证帧间一致 → 背景融合输出。

关键设计¶

双重条件注入
- 草图通过ControlNet编码为空间条件，控制物体形状和姿态
- 文本通过CLIP编码为语义条件，控制纹理、颜色和风格
- 两种条件在交叉注意力层中融合
实例感知编辑
- 使用SAM/预计算的实例掩码限定编辑区域
- 背景区域保持原帧不变，仅掩码内区域重绘
- 边界处做Alpha blending避免接缝
时序一致性模块
- 在扩散U-Net中插入时序注意力层
- 相邻帧共享注意力键值对
- 光流引导的特征对齐确保运动连贯

损失函数 / 训练策略¶

标准扩散去噪损失 + 时序一致性正则化。在视频数据上微调预训练的图像扩散模型。

实验关键数据¶

主实验¶

方法	CLIP Score↑	时序一致性↑	FID↓	用户偏好↑
Tune-A-Video	0.27	0.89	45.3	18%
ControlVideo	0.29	0.91	38.7	25%
ViReS	0.32	0.94	32.1	57%

消融实验¶

配置	CLIP Score	时序一致性
仅文本引导	0.28	0.92
仅草图引导	0.25	0.93
双重引导(完整)	0.32	0.94

关键发现¶

双重引导在CLIP Score上比单一引导提升14-28%
时序注意力将帧间一致性从0.89提升到0.94
57%的用户偏好显著优于竞争方法
实例掩码有效防止背景泄漏

亮点与洞察¶

草图+文本双重引导互补——草图提供空间"在哪/什么形状"，文本提供语义"什么样子"
实例级编辑保持背景完整，比全局编辑更实用
时序注意力的设计平衡了quality和consistency

局限与展望¶

需要每帧的草图序列输入，用户交互成本较高
对快速运动场景的时序一致性仍有挑战
长视频编辑的计算成本较高
与3D-aware方法的结合是未来方向

评分¶

新颖性: ⭐⭐⭐⭐ 双重引导实例级视频编辑有新意
实验充分度: ⭐⭐⭐⭐ 多场景验证，用户研究
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 视频编辑的实用工具