跳转至

MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing

会议: ECCV 2024
arXiv: 2311.17338
领域: 图像生成

一句话总结

提出首个统一视频生成与编辑的多对齐扩散模型 MagDiff,通过主体驱动对齐、自适应提示对齐和高保真对齐三种策略,在单一无微调框架中同时实现高质量视频生成与编辑。

研究背景与动机

视频生成和视频编辑是两个密切相关但分别处理的任务。视频生成从纯噪声创建视频,视频编辑要求保持未编辑区域的一致性。现有方法面临多重对齐问题:

主体不对齐: 仅依赖文本提示的模型无法精确控制视觉细节(如"挥右手"却生成"挥左手")

身份不对齐: 文本引导编辑时,主体身份和背景常发生改变

动作不对齐: 使用图像提示时,固定权重导致动作无法被文本控制

核心原因在于:文本与图像是异构模态,现有方法忽视了同构(图像-图像)和异构(文本-图像)对齐的差异性,简单地给两种提示分配相同权重无法平衡二者。

方法详解

整体框架

MagDiff 基于 U-Net 扩散模型,引入三种对齐策略: 1. Subject-Driven Alignment (SDA) — 统一两个任务 2. Adaptive Prompts Alignment (APA) — 平衡异构/同构模态 3. High-Fidelity Alignment (HFA) — 提升主体保真度

关键设计

1. 主体驱动对齐 (SDA)

与 VideoCrafter1 使用完整图像不同,MagDiff 通过分割算法提取主体作为条件图像。这个简单但关键的改变使得: - 生成任务中:主体图像提供外观信息,文本控制动作和场景 - 编辑任务中:不可编辑区域作为"主体"被保持,文本控制编辑区域 - 从而在同一模型中统一了两个任务

2. 自适应提示对齐 (APA)

在交叉注意力块中,设计可学习参数 α₁ 和 α₂ 动态调节文本和图像提示的控制强度:

\[\text{Attention} = \alpha_1 \cdot \text{Softmax}\left(\frac{QK_1^\top}{\sqrt{d}}\right)V_1 + \alpha_2 \cdot \text{Softmax}\left(\frac{QK_2^\top}{\sqrt{d}}\right)V_2\]

共享 Query Q,分别处理文本和图像的 K/V,允许模型自适应学习两种模态的最优权重配比。

3. 高保真对齐 (HFA)

CLIP 编码器只保留高层语义,丢失视觉细节。HFA 利用 VAE 编码器构建金字塔结构: - 将主体图像缩放至 384×384、320×320、256×256 三种尺寸 - 分别通过 VAE 编码获得多尺度潜变量特征 - 经卷积层对齐后与噪声潜变量拼接,注入像素级细节

损失函数

标准条件扩散去噪损失:

\[\mathcal{L} = \mathbb{E}_{y \sim \mathcal{N}(0, I)}\left[\|y - f_\theta(x_t; c_s, c_t, t)\|_2^2\right]\]

其中 \(c_s\) 为主体图像提示,\(c_t\) 为文本提示。

实验关键数据

主实验

视频生成 (UCF-101 & MSR-VTT)

方法 输入类型 训练数据量 IS ↑ FVD ↓ (UCF) FVD ↓ (MSR)
Make-A-Video text 20M 33.00 367.23 -
PYoCo text 22.5M 47.76 355.19 -
VideoComposer text&image 10.3M - - 580
VideoCrafter1 text&image 10.3M 44.53 415.87 465
MagDiff text&image 5.3M+76K 48.57 339.62 245

MagDiff 在仅用 76K 微调数据的情况下,FVD 指标大幅领先所有方法。

视频编辑 (DAVIS)

方法 推理方式 Textual-align Frame-consistency
Tune-A-Video 微调 28.33 90.45
FateZero 微调 23.81 92.92
Framewise IP2P 免微调 25.11 86.76
MagDiff 免微调 27.65 90.86

消融实验

组件配置 IS ↑ FVD ↓ DINO ↑ Textual-align ↑ Frame-consist ↑
基座 (VidRD, 纯文本) 42.85 380.24 44.5 24.8 89.8
+ SDA 45.12 363.45 47.2 24.9 89.9
+ SDA + APA 46.89 349.18 49.1 25.2 90.0
+ SDA + APA + HFA 48.57 339.62 50.8 25.4 90.2

三个组件逐步叠加,均有明显贡献。SDA 是统一两任务的基础,APA 提升控制精度,HFA 增强保真度。

关键发现

  • 人工评估中 MagDiff 在主体保真度(4.4/5)和文本对齐(4.1/5)上均大幅领先 VideoCrafter1(3.2, 2.8)
  • 可学习的 α₁/α₂ 自适应调节优于固定等权重的 attention 融合
  • 主体驱动(去掉背景只用主体)是统一生成和编辑的关键

亮点与洞察

  1. 统一框架的设计思路简洁优雅: 通过"只用主体而非完整图像"这一简单改变,就实现了生成和编辑的统一,背后的洞察是主体分割天然区分了可编辑与不可编辑区域
  2. 自适应权重比固定权重: 显式承认同构和异构模态的差异,用可学习参数让模型自行决定最优融合比例
  3. 免微调推理: 相比 Tune-A-Video 等需要逐视频微调的方法,MagDiff 推理时无需微调即可使用,实用性更强
  4. 训练数据极少: 仅 76K 微调视频即达到 SOTA,说明模块设计合理

局限性

  • 仅用 16 帧生成,较长视频的一致性未充分验证
  • 分割质量对主体驱动对齐有较大影响,但未讨论分割失败时的退化
  • 视频编辑对比的方法较老(FateZero, Tune-A-Video),缺少与更新方法的比较
  • 复杂多主体场景和遮挡情况未深入分析

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个统一视频生成和编辑的多对齐扩散框架
  • 技术深度: ⭐⭐⭐⭐ — 三种对齐策略设计合理,APA 模块有启发性
  • 实验充分度: ⭐⭐⭐⭐ — 四个基准数据集 + 人工评估 + 完整消融
  • 写作质量: ⭐⭐⭐⭐ — 问题剖析清晰,图示丰富

相关论文