VACE: All-in-One Video Creation and Editing¶

会议: ICCV 2025
arXiv: 2503.07598
代码: https://ali-vilab.github.io/VACE-Page/
领域: 视频生成 / 视频编辑 / 统一框架
关键词: video generation, video editing, unified framework, Video Condition Unit, Context Adapter, DiT

一句话总结¶

提出VACE统一视频生成和编辑框架，通过Video Condition Unit（VCU）将参考图→视频生成、视频→视频编辑、mask视频编辑等多种任务的输入统一为标准接口，配合Context Adapter注入时空条件信息，单一模型在各子任务上达到专用模型水平并支持灵活的任务组合。

背景与动机¶

Diffusion Transformer在高质量图像/视频生成上展现了强大能力。在图像领域，统一生成和编辑的框架已经取得显著进展。但视频领域由于时间和空间动态一致性的内在要求，统一方案更加困难。现有视频模型通常为每种任务（文生视频、图生视频、视频编辑、视频补全等）分别训练独立模型或adapter，资源浪费且难以组合多种能力。

核心问题¶

如何设计一个统一的视频合成框架，让同一个模型同时支持reference-to-video生成、video-to-video编辑、masked video editing等多种任务，且性能不弱于专用模型？

方法详解¶

整体框架¶

VACE基于视频Diffusion Transformer（类似Wan/CogVideoX架构），引入两个核心组件：VCU统一不同任务的条件输入格式，Context Adapter将条件信息注入生成模型。

关键设计¶

Video Condition Unit (VCU)：将所有视频任务的条件输入组织为统一的时空结构。对于reference-to-video：将参考图扩展到视频长度作为条件；对于video-to-video编辑：将源视频作为条件；对于masked editing：在视频上施加mask区分保留/生成区域。所有条件都被格式化为与目标视频相同维度的tensor（时间×高×宽×通道），使模型只需处理一种统一的输入格式。
Context Adapter：轻量级模块，将VCU的条件信息注入到DiT的生成过程中。它在时间和空间维度上分别处理条件信号——空间维度捕获每帧的结构/外观信息，时间维度保证跨帧的一致性。通过形式化的时空表示注入，模型可以灵活处理各种不同的视频合成任务。
任务组合灵活性：因为所有条件都通过VCU标准化，用户可以同时提供多种条件进行组合任务——如reference图+mask实现"在参考风格下的局部编辑"，或depth条件+参考图实现"结构引导的风格化视频生成"。这种组合能力在专用模型方案中极难实现。

损失函数 / 训练策略¶

标准视频扩散loss，训练时随机采样不同任务类型的数据，通过VCU统一处理。

实验关键数据¶

在reference-to-video、video-to-video editing、masked video editing等多个子任务上，单一VACE模型性能与各自专用模型持平
支持多种任务组合应用（reference+mask editing、depth-guided+style等），专用模型无法实现
统一框架大幅减少了模型存储和部署成本——一个模型替代多个专用模型

消融实验要点¶

VCU的统一格式化对多任务性能至关重要——去掉统一格式化导致任务间干扰
Context Adapter的时空分离设计优于简单拼接——更好地保持时间一致性
混合训练策略（随机采样不同任务）比分阶段训练效果更好
任务组合在推理时直接可用，无需额外训练

亮点¶

真正的All-in-One：参考图生成、视频编辑、视频补全等多种任务在一个模型中统一
VCU的设计哲学：万物皆tensor——所有条件都标准化为时空tensor，优雅地消除了task-specific adapter的需求
任务组合是杀手级功能：用户可以自由搭配条件实现新的编辑效果，这是专用模型无法做到的
与VisualCloze的理念呼应：VisualCloze用infilling统一图像任务，VACE用VCU统一视频任务——都是"统一切入点"的思路
来自阿里巴巴达摩院的工作，与Wan/CogVideoX生态兼容

局限性 / 可改进方向¶

统一模型在某些极精细的编辑任务上可能不如深度专用方案
视频长度和分辨率受限于DiT backbone的能力
组合任务的效果依赖于用户正确指定多种条件，需要一定交互设计
未展示与LLM结合做自然语言指令驱动的编辑

与相关工作的对比¶

vs. CogVideoX/Wan：这些是基础视频生成模型，VACE在其基础上统一了生成+编辑
vs. VisualCloze：VisualCloze统一图像任务用visual ICL；VACE统一视频任务用VCU——理念相似但领域不同
vs. AnyV2V/InsV2V：这些是特定的视频编辑方法；VACE包含编辑但不限于编辑
vs. SANA-Sprint：SANA-Sprint加速图像扩散推理；VACE统一视频扩散任务——互补

启发与关联¶

VCU的条件统一思路可以扩展到3D/4D生成——将点云/mesh条件也格式化为统一tensor
与REPA-E结合：如果视频VAE也能端到端训练，VACE的生成质量可能进一步提升
任务组合能力使VACE特别适合与LLM agent结合——agent分解用户需求，VACE执行组合任务

评分¶

新颖性: ⭐⭐⭐⭐ VCU和Context Adapter设计实用，统一视频任务的框架填补空白
实验充分度: ⭐⭐⭐⭐ 多子任务评估+组合应用展示
写作质量: ⭐⭐⭐⭐ 框架描述清晰，应用场景展示充分
价值: ⭐⭐⭐⭐⭐ All-in-One视频合成对产品级应用价值巨大，阿里达摩院出品质量有保障