跳转至

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成

一句话总结

提出 MOFA-Video,通过设计多个领域感知的运动场适配器(MOFA-Adapter),在冻结的 Stable Video Diffusion 上实现多域可控图像动画,支持手绘轨迹、人脸关键点等多种控制信号及其零样本组合。

研究背景与动机

  • 领域特定方法的局限:传统图像动画方法(如 SadTalker、Text2Cinemagraph)只能在特定领域工作(人脸、流体等),无法泛化到通用场景
  • 扩散模型控制不足:现有 Image-to-Video 扩散模型(如 SVD)虽然支持开放域动画,但只能通过文本生成简单运动,缺乏精细的运动控制能力
  • 核心问题:能否构建一个统一框架,在开放域图像上实现来自不同运动域(轨迹、人脸关键点等)的精细可控动画?
  • 关键洞察:所有动画都可以表述为稀疏关键点的运动传播问题,因此可以设计统一的适配器结构处理不同域的稀疏控制信号

方法详解

整体框架

MOFA-Video 在冻结的 Stable Video Diffusion (SVD) 上添加多个可训练的 MOFA-Adapter,每个适配器处理不同域的运动控制信号。框架包含三个核心组件:

  1. 稀疏到稠密(S2D)运动生成网络:将稀疏运动提示(轨迹点、关键点)转换为稠密光流场
  2. 参考编码器:提取参考图像的多尺度卷积特征
  3. 融合编码器:将 warped 特征融合到 SVD 的去噪过程中

关键设计

统一的稀疏运动表示: - 对于开放域轨迹:从稠密光流中采样稀疏运动向量,使用分水岭采样策略 - 对于人脸关键点:将关键点序列的运动差异转换为稀疏运动向量 - 两种信号都统一为稀疏光流表示,共享 S2D 网络的先验信息

显式运动场建模:不同于 DragNUWA 等方法通过自适应归一化隐式建模运动,MOFA-Adapter 显式生成稠密光流并进行空间 warping,保证运动的可解释性和精确控制

区域运动画笔:用户可提供二值运动掩码控制动画区域,将轨迹分为掩码内外两组分别生成光流后融合

周期采样长视频生成:将长视频帧分组,每组 14 帧且有 7 帧重叠,在每个扩散步中对重叠帧的噪声预测取平均,避免误差累积

多适配器零样本组合:由于 SVD 参数固定,不同域的 MOFA-Adapter 可以像 Multi-ControlNet 一样联合工作,通过掩码感知策略分配各适配器的控制区域

损失函数

训练目标为标准的扩散模型重建损失:

\[\mathcal{L} = \|\mathcal{S}(\mathcal{V}_t, t, \mathcal{M}(\mathcal{V}_t, t, I, F^s; \theta_\mathcal{M})) - \mathcal{V}\|^2\]

仅优化 MOFA-Adapter 参数 \(\theta_\mathcal{M}\),SVD 参数保持冻结。

实验关键数据

主实验

轨迹控制对比(vs DragNUWA)

方法 帧一致性↑ LPIPS↓ FID↓ FVD↓ 控制精度(用户)↑ 视觉质量(用户)↑
DragNUWA 0.9302 0.2705 19.66 91.38 2.76 3.18
MOFA-Video 0.9390 0.2274 16.82 86.76 3.58 3.42

人像动画对比

方法 CPBD↑ ID↑ 保真度(用户)↑ 自然度(用户)↑ 视觉质量(用户)↑
SadTalker 0.3218 0.9188 4.15 3.12 3.97
StyleHEAT 0.2577 0.7993 3.26 3.65 3.70
MOFA-Video 0.4075 0.9293 4.80 3.97 4.52

消融实验

网络设计消融(轨迹控制)

变体 LPIPS↓ FID↓ FVD↓
w/o warping(稀疏条件化) 0.2619 18.80 184.27
w/o S2D(稀疏 warping) 0.2376 16.87 81.80
w/o tuning(不微调) 0.2163 16.97 102.17
完整模型 0.2274 16.82 86.76

关键发现

  1. 去掉显式 warping 后空间对齐错误严重(FVD 从 86.76 升至 184.27),证明显式运动场建模的必要性
  2. 稀疏 warping(无 S2D)虽可控制轨迹但因缺乏稠密流导致显著伪影
  3. 领域特定微调对人像动画至关重要——直接用轨迹模型做人脸动画产生不自然表情
  4. 周期采样策略有效解决长视频的误差累积和时间不一致问题

亮点与洞察

  • 统一性:将所有运动域的控制信号统一为稀疏光流表示,实现"一个框架,多域控制"
  • 可组合性:不同域的适配器零样本组合,无需重新训练即可实现复杂控制(如人脸表情+背景运动)
  • 显式性:通过中间稠密光流提供可解释的运动控制,避免 DragNUWA 等方法的控制区域扩散问题

局限性

  • 无法像 SORA 那样生成与输入图像差异较大的新内容(受限于短视频片段训练)
  • 大幅度运动引导下可能出现模糊或结构丢失等视觉伪影
  • 人脸适配器需要额外的领域特定数据集训练

评分

⭐⭐⭐⭐ (4/5) — 统一框架设计优雅,适配器组合机制新颖,在可控图像动画领域有重要推进

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成

一句话总结

提出 MOFA-Video,通过设计多个领域感知运动场适配器(MOFA-Adapter)为冻结的视频扩散模型(SVD)添加可控运动能力,支持手绘轨迹、人脸关键点等多种控制信号及其组合,实现开放域可控图像动画。

研究背景与动机

  • 领域内动画方法(如 SadTalker)可精细控制特定类别(人脸、流体),但受限于特定领域,无法泛化到开放域
  • 扩散式 I2V 模型(如 SVD、AnimateDiff)可处理开放域图像动画,但生成内容可能偏离输入图像,且仅支持文本或简单闲置动画,控制能力弱
  • 已有控制方法的不足:DragNUWA 通过自适应归一化建模轨迹但空间对应性差;MotionCtrl 依赖 T2V 模型缺少世界坐标系
  • 核心问题:如何构建一个统一框架,在开放域图像上实现来自多个运动领域的精细可控动画?

方法详解

整体框架

MOFA-Video 在冻结的 Stable Video Diffusion(SVD)上附加 MOFA-Adapter 作为运动控制模块,类似 ControlNet 的思路。核心是将不同领域的控制信号统一为稀疏运动向量表示,再通过统一的适配器结构生成视频。

关键设计

1. MOFA-Adapter 结构: - 稀疏到稠密(S2D)运动生成网络:接受第一帧图像和稀疏运动提示,生成稠密光流场,采用 CMP 网络结构 - 参考图像编码器:多尺度卷积特征编码器,提取第一帧的多尺度特征用于 warp - 融合编码器:SVD 编码器的可训练副本,将 warp 后的特征与 SVD 解码器的特征融合

2. 领域感知运动控制: - 开放域轨迹:从视频光流中采样稀疏运动向量进行训练,推理时接受手绘轨迹 - 人脸关键点:将面部关键点位移转化为稀疏运动向量,统一表示简化框架 - 多适配器组合:不同领域的 MOFA-Adapter 可零样本联合使用,通过掩码感知策略融合不同区域的控制信号

3. 长视频生成:提出周期采样策略,每个扩散步内将帧分组(14帧/组,7帧重叠),对重叠帧的预测噪声取平均,实现更长视频的时序一致性

损失函数

冻结 SVD 参数,仅优化 MOFA-Adapter 参数 \(\theta_{\mathcal{M}}\)

\[\mathcal{L} = \| \mathcal{S}(\mathcal{V}_t, t, \mathcal{M}(\mathcal{V}_t, t, I, F^s; \theta_{\mathcal{M}})) - \mathcal{V} \|^2\]

其中 \(\mathcal{S}\) 为冻结的 SVD,\(\mathcal{V}\) 为视频潜在表示。

实验关键数据

主实验

轨迹控制对比(vs DragNUWA)

方法 帧一致性↑ LPIPS↓ FID↓ FVD↓ 控制精度(用户)↑ 视觉质量(用户)↑
DragNUWA 0.9302 0.2705 19.66 91.38 2.76 3.18
MOFA-Video 0.9390 0.2274 16.82 86.76 3.58 3.42

人像动画对比(vs SadTalker, StyleHEAT)

方法 CPBD↑ ID↑ 保真度(用户)↑ 自然度(用户)↑ 视觉质量(用户)↑
SadTalker 0.3218 0.9188 4.15 3.12 3.97
StyleHEAT 0.2577 0.7993 3.26 3.65 3.70
MOFA-Video 0.4075 0.9293 4.80 3.97 4.52

消融实验

网络结构消融(轨迹控制)

变体 LPIPS↓ FID↓ FVD↓
w/o warping(纯稀疏条件) 0.2619 18.80 184.27
w/o S2D(稀疏 warp) 0.2376 16.87 81.80
w/o tuning(直接用重建模型) 0.2163 16.97 102.17
完整模型 0.2274 16.82 86.76

关键发现

  • 稀疏条件模型无法精确控制目标物体轨迹,因为缺乏空间 warp 操作导致空间不对齐
  • 稀疏 warp 模型能控制轨迹但由于缺少稠密光流指导,生成结果有严重伪影
  • 不同领域的 MOFA-Adapter 必须分别训练,直接用开放域模型做人脸动画会导致不自然表情
  • 周期采样策略显著优于朴素帧分组方法,有效解决了长视频的误差累积和时序不一致问题

亮点与洞察

  • 将多领域运动控制统一为稀疏运动向量问题,设计优雅且可扩展
  • 显式的稀疏到稠密光流生成 + 特征 warp 策略在控制精度和生成质量之间取得了良好平衡
  • 多 MOFA-Adapter 的零样本组合能力使得同时控制人脸表情和背景运动成为可能
  • 相比 DragNUWA 的隐式轨迹建模,显式光流方法能更好地限定运动区域

局限性

  • 无法控制/生成远离输入图像的新内容(受限于 SVD 的短视频训练数据)
  • 大运动引导下可能出现模糊或结构损失等视觉伪影
  • 视频长度受限于 SVD 的 14 帧窗口,长视频需要额外的周期采样策略

评分

  • 新颖性: 7/10 — 适配器思路源自 ControlNet,核心创新在于运动场的统一建模和多领域组合
  • 技术深度: 8/10 — S2D + warp 的显式运动建模设计扎实,多适配器组合方案合理
  • 实验充分度: 8/10 — 对比实验和消融实验较全面,但缺少定量的长视频评估
  • 影响力: 7/10 — 为可控视频生成提供了实用的统一框架

相关论文