MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model¶
会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成
一句话总结¶
提出 MOFA-Video,通过设计多个领域感知的运动场适配器(MOFA-Adapter),在冻结的 Stable Video Diffusion 上实现多域可控图像动画,支持手绘轨迹、人脸关键点等多种控制信号及其零样本组合。
研究背景与动机¶
- 领域特定方法的局限:传统图像动画方法(如 SadTalker、Text2Cinemagraph)只能在特定领域工作(人脸、流体等),无法泛化到通用场景
- 扩散模型控制不足:现有 Image-to-Video 扩散模型(如 SVD)虽然支持开放域动画,但只能通过文本生成简单运动,缺乏精细的运动控制能力
- 核心问题:能否构建一个统一框架,在开放域图像上实现来自不同运动域(轨迹、人脸关键点等)的精细可控动画?
- 关键洞察:所有动画都可以表述为稀疏关键点的运动传播问题,因此可以设计统一的适配器结构处理不同域的稀疏控制信号
方法详解¶
整体框架¶
MOFA-Video 在冻结的 Stable Video Diffusion (SVD) 上添加多个可训练的 MOFA-Adapter,每个适配器处理不同域的运动控制信号。框架包含三个核心组件:
- 稀疏到稠密(S2D)运动生成网络:将稀疏运动提示(轨迹点、关键点)转换为稠密光流场
- 参考编码器:提取参考图像的多尺度卷积特征
- 融合编码器:将 warped 特征融合到 SVD 的去噪过程中
关键设计¶
统一的稀疏运动表示: - 对于开放域轨迹:从稠密光流中采样稀疏运动向量,使用分水岭采样策略 - 对于人脸关键点:将关键点序列的运动差异转换为稀疏运动向量 - 两种信号都统一为稀疏光流表示,共享 S2D 网络的先验信息
显式运动场建模:不同于 DragNUWA 等方法通过自适应归一化隐式建模运动,MOFA-Adapter 显式生成稠密光流并进行空间 warping,保证运动的可解释性和精确控制
区域运动画笔:用户可提供二值运动掩码控制动画区域,将轨迹分为掩码内外两组分别生成光流后融合
周期采样长视频生成:将长视频帧分组,每组 14 帧且有 7 帧重叠,在每个扩散步中对重叠帧的噪声预测取平均,避免误差累积
多适配器零样本组合:由于 SVD 参数固定,不同域的 MOFA-Adapter 可以像 Multi-ControlNet 一样联合工作,通过掩码感知策略分配各适配器的控制区域
损失函数¶
训练目标为标准的扩散模型重建损失:
仅优化 MOFA-Adapter 参数 \(\theta_\mathcal{M}\),SVD 参数保持冻结。
实验关键数据¶
主实验¶
轨迹控制对比(vs DragNUWA):
| 方法 | 帧一致性↑ | LPIPS↓ | FID↓ | FVD↓ | 控制精度(用户)↑ | 视觉质量(用户)↑ |
|---|---|---|---|---|---|---|
| DragNUWA | 0.9302 | 0.2705 | 19.66 | 91.38 | 2.76 | 3.18 |
| MOFA-Video | 0.9390 | 0.2274 | 16.82 | 86.76 | 3.58 | 3.42 |
人像动画对比:
| 方法 | CPBD↑ | ID↑ | 保真度(用户)↑ | 自然度(用户)↑ | 视觉质量(用户)↑ |
|---|---|---|---|---|---|
| SadTalker | 0.3218 | 0.9188 | 4.15 | 3.12 | 3.97 |
| StyleHEAT | 0.2577 | 0.7993 | 3.26 | 3.65 | 3.70 |
| MOFA-Video | 0.4075 | 0.9293 | 4.80 | 3.97 | 4.52 |
消融实验¶
网络设计消融(轨迹控制):
| 变体 | LPIPS↓ | FID↓ | FVD↓ |
|---|---|---|---|
| w/o warping(稀疏条件化) | 0.2619 | 18.80 | 184.27 |
| w/o S2D(稀疏 warping) | 0.2376 | 16.87 | 81.80 |
| w/o tuning(不微调) | 0.2163 | 16.97 | 102.17 |
| 完整模型 | 0.2274 | 16.82 | 86.76 |
关键发现¶
- 去掉显式 warping 后空间对齐错误严重(FVD 从 86.76 升至 184.27),证明显式运动场建模的必要性
- 稀疏 warping(无 S2D)虽可控制轨迹但因缺乏稠密流导致显著伪影
- 领域特定微调对人像动画至关重要——直接用轨迹模型做人脸动画产生不自然表情
- 周期采样策略有效解决长视频的误差累积和时间不一致问题
亮点与洞察¶
- 统一性:将所有运动域的控制信号统一为稀疏光流表示,实现"一个框架,多域控制"
- 可组合性:不同域的适配器零样本组合,无需重新训练即可实现复杂控制(如人脸表情+背景运动)
- 显式性:通过中间稠密光流提供可解释的运动控制,避免 DragNUWA 等方法的控制区域扩散问题
局限性¶
- 无法像 SORA 那样生成与输入图像差异较大的新内容(受限于短视频片段训练)
- 大幅度运动引导下可能出现模糊或结构丢失等视觉伪影
- 人脸适配器需要额外的领域特定数据集训练
评分¶
⭐⭐⭐⭐ (4/5) — 统一框架设计优雅,适配器组合机制新颖,在可控图像动画领域有重要推进
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model¶
会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成
一句话总结¶
提出 MOFA-Video,通过设计多个领域感知运动场适配器(MOFA-Adapter)为冻结的视频扩散模型(SVD)添加可控运动能力,支持手绘轨迹、人脸关键点等多种控制信号及其组合,实现开放域可控图像动画。
研究背景与动机¶
- 领域内动画方法(如 SadTalker)可精细控制特定类别(人脸、流体),但受限于特定领域,无法泛化到开放域
- 扩散式 I2V 模型(如 SVD、AnimateDiff)可处理开放域图像动画,但生成内容可能偏离输入图像,且仅支持文本或简单闲置动画,控制能力弱
- 已有控制方法的不足:DragNUWA 通过自适应归一化建模轨迹但空间对应性差;MotionCtrl 依赖 T2V 模型缺少世界坐标系
- 核心问题:如何构建一个统一框架,在开放域图像上实现来自多个运动领域的精细可控动画?
方法详解¶
整体框架¶
MOFA-Video 在冻结的 Stable Video Diffusion(SVD)上附加 MOFA-Adapter 作为运动控制模块,类似 ControlNet 的思路。核心是将不同领域的控制信号统一为稀疏运动向量表示,再通过统一的适配器结构生成视频。
关键设计¶
1. MOFA-Adapter 结构: - 稀疏到稠密(S2D)运动生成网络:接受第一帧图像和稀疏运动提示,生成稠密光流场,采用 CMP 网络结构 - 参考图像编码器:多尺度卷积特征编码器,提取第一帧的多尺度特征用于 warp - 融合编码器:SVD 编码器的可训练副本,将 warp 后的特征与 SVD 解码器的特征融合
2. 领域感知运动控制: - 开放域轨迹:从视频光流中采样稀疏运动向量进行训练,推理时接受手绘轨迹 - 人脸关键点:将面部关键点位移转化为稀疏运动向量,统一表示简化框架 - 多适配器组合:不同领域的 MOFA-Adapter 可零样本联合使用,通过掩码感知策略融合不同区域的控制信号
3. 长视频生成:提出周期采样策略,每个扩散步内将帧分组(14帧/组,7帧重叠),对重叠帧的预测噪声取平均,实现更长视频的时序一致性
损失函数¶
冻结 SVD 参数,仅优化 MOFA-Adapter 参数 \(\theta_{\mathcal{M}}\):
其中 \(\mathcal{S}\) 为冻结的 SVD,\(\mathcal{V}\) 为视频潜在表示。
实验关键数据¶
主实验¶
轨迹控制对比(vs DragNUWA):
| 方法 | 帧一致性↑ | LPIPS↓ | FID↓ | FVD↓ | 控制精度(用户)↑ | 视觉质量(用户)↑ |
|---|---|---|---|---|---|---|
| DragNUWA | 0.9302 | 0.2705 | 19.66 | 91.38 | 2.76 | 3.18 |
| MOFA-Video | 0.9390 | 0.2274 | 16.82 | 86.76 | 3.58 | 3.42 |
人像动画对比(vs SadTalker, StyleHEAT):
| 方法 | CPBD↑ | ID↑ | 保真度(用户)↑ | 自然度(用户)↑ | 视觉质量(用户)↑ |
|---|---|---|---|---|---|
| SadTalker | 0.3218 | 0.9188 | 4.15 | 3.12 | 3.97 |
| StyleHEAT | 0.2577 | 0.7993 | 3.26 | 3.65 | 3.70 |
| MOFA-Video | 0.4075 | 0.9293 | 4.80 | 3.97 | 4.52 |
消融实验¶
网络结构消融(轨迹控制):
| 变体 | LPIPS↓ | FID↓ | FVD↓ |
|---|---|---|---|
| w/o warping(纯稀疏条件) | 0.2619 | 18.80 | 184.27 |
| w/o S2D(稀疏 warp) | 0.2376 | 16.87 | 81.80 |
| w/o tuning(直接用重建模型) | 0.2163 | 16.97 | 102.17 |
| 完整模型 | 0.2274 | 16.82 | 86.76 |
关键发现¶
- 稀疏条件模型无法精确控制目标物体轨迹,因为缺乏空间 warp 操作导致空间不对齐
- 稀疏 warp 模型能控制轨迹但由于缺少稠密光流指导,生成结果有严重伪影
- 不同领域的 MOFA-Adapter 必须分别训练,直接用开放域模型做人脸动画会导致不自然表情
- 周期采样策略显著优于朴素帧分组方法,有效解决了长视频的误差累积和时序不一致问题
亮点与洞察¶
- 将多领域运动控制统一为稀疏运动向量问题,设计优雅且可扩展
- 显式的稀疏到稠密光流生成 + 特征 warp 策略在控制精度和生成质量之间取得了良好平衡
- 多 MOFA-Adapter 的零样本组合能力使得同时控制人脸表情和背景运动成为可能
- 相比 DragNUWA 的隐式轨迹建模,显式光流方法能更好地限定运动区域
局限性¶
- 无法控制/生成远离输入图像的新内容(受限于 SVD 的短视频训练数据)
- 大运动引导下可能出现模糊或结构损失等视觉伪影
- 视频长度受限于 SVD 的 14 帧窗口,长视频需要额外的周期采样策略
评分¶
- 新颖性: 7/10 — 适配器思路源自 ControlNet,核心创新在于运动场的统一建模和多领域组合
- 技术深度: 8/10 — S2D + warp 的显式运动建模设计扎实,多适配器组合方案合理
- 实验充分度: 8/10 — 对比实验和消融实验较全面,但缺少定量的长视频评估
- 影响力: 7/10 — 为可控视频生成提供了实用的统一框架
相关论文¶
- [ECCV 2024] VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
- [ECCV 2024] Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion
- [ECCV 2024] MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing
- [ECCV 2024] SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion
- [ECCV 2024] Evaluating Text-to-Visual Generation with Image-to-Text Generation