MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model¶

会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成

一句话总结¶

提出 MOFA-Video，通过设计多个领域感知的运动场适配器（MOFA-Adapter），在冻结的 Stable Video Diffusion 上实现多域可控图像动画，支持手绘轨迹、人脸关键点等多种控制信号及其零样本组合。

研究背景与动机¶

领域特定方法的局限：传统图像动画方法（如 SadTalker、Text2Cinemagraph）只能在特定领域工作（人脸、流体等），无法泛化到通用场景
扩散模型控制不足：现有 Image-to-Video 扩散模型（如 SVD）虽然支持开放域动画，但只能通过文本生成简单运动，缺乏精细的运动控制能力
核心问题：能否构建一个统一框架，在开放域图像上实现来自不同运动域（轨迹、人脸关键点等）的精细可控动画？
关键洞察：所有动画都可以表述为稀疏关键点的运动传播问题，因此可以设计统一的适配器结构处理不同域的稀疏控制信号

方法详解¶

整体框架¶

MOFA-Video 在冻结的 Stable Video Diffusion (SVD) 上添加多个可训练的 MOFA-Adapter，每个适配器处理不同域的运动控制信号。框架包含三个核心组件：

稀疏到稠密（S2D）运动生成网络：将稀疏运动提示（轨迹点、关键点）转换为稠密光流场
参考编码器：提取参考图像的多尺度卷积特征
融合编码器：将 warped 特征融合到 SVD 的去噪过程中

关键设计¶

统一的稀疏运动表示： - 对于开放域轨迹：从稠密光流中采样稀疏运动向量，使用分水岭采样策略 - 对于人脸关键点：将关键点序列的运动差异转换为稀疏运动向量 - 两种信号都统一为稀疏光流表示，共享 S2D 网络的先验信息

显式运动场建模：不同于 DragNUWA 等方法通过自适应归一化隐式建模运动，MOFA-Adapter 显式生成稠密光流并进行空间 warping，保证运动的可解释性和精确控制

区域运动画笔：用户可提供二值运动掩码控制动画区域，将轨迹分为掩码内外两组分别生成光流后融合

周期采样长视频生成：将长视频帧分组，每组 14 帧且有 7 帧重叠，在每个扩散步中对重叠帧的噪声预测取平均，避免误差累积

多适配器零样本组合：由于 SVD 参数固定，不同域的 MOFA-Adapter 可以像 Multi-ControlNet 一样联合工作，通过掩码感知策略分配各适配器的控制区域

损失函数¶

训练目标为标准的扩散模型重建损失：

\[\mathcal{L} = \|\mathcal{S}(\mathcal{V}_t, t, \mathcal{M}(\mathcal{V}_t, t, I, F^s; \theta_\mathcal{M})) - \mathcal{V}\|^2\]

仅优化 MOFA-Adapter 参数 \(\theta_\mathcal{M}\)，SVD 参数保持冻结。

实验关键数据¶

主实验¶

轨迹控制对比（vs DragNUWA）：

方法	帧一致性↑	LPIPS↓	FID↓	FVD↓	控制精度(用户)↑	视觉质量(用户)↑
DragNUWA	0.9302	0.2705	19.66	91.38	2.76	3.18
MOFA-Video	0.9390	0.2274	16.82	86.76	3.58	3.42

人像动画对比：

方法	CPBD↑	ID↑	保真度(用户)↑	自然度(用户)↑	视觉质量(用户)↑
SadTalker	0.3218	0.9188	4.15	3.12	3.97
StyleHEAT	0.2577	0.7993	3.26	3.65	3.70
MOFA-Video	0.4075	0.9293	4.80	3.97	4.52

消融实验¶

网络设计消融（轨迹控制）：

变体	LPIPS↓	FID↓	FVD↓
w/o warping（稀疏条件化）	0.2619	18.80	184.27
w/o S2D（稀疏 warping）	0.2376	16.87	81.80
w/o tuning（不微调）	0.2163	16.97	102.17
完整模型	0.2274	16.82	86.76

关键发现¶

去掉显式 warping 后空间对齐错误严重（FVD 从 86.76 升至 184.27），证明显式运动场建模的必要性
稀疏 warping（无 S2D）虽可控制轨迹但因缺乏稠密流导致显著伪影
领域特定微调对人像动画至关重要——直接用轨迹模型做人脸动画产生不自然表情
周期采样策略有效解决长视频的误差累积和时间不一致问题

亮点与洞察¶

统一性：将所有运动域的控制信号统一为稀疏光流表示，实现"一个框架，多域控制"
可组合性：不同域的适配器零样本组合，无需重新训练即可实现复杂控制（如人脸表情+背景运动）
显式性：通过中间稠密光流提供可解释的运动控制，避免 DragNUWA 等方法的控制区域扩散问题

局限性¶

无法像 SORA 那样生成与输入图像差异较大的新内容（受限于短视频片段训练）
大幅度运动引导下可能出现模糊或结构丢失等视觉伪影
人脸适配器需要额外的领域特定数据集训练

评分¶

⭐⭐⭐⭐ (4/5) — 统一框架设计优雅，适配器组合机制新颖，在可控图像动画领域有重要推进

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model¶

会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成

一句话总结¶

提出 MOFA-Video，通过设计多个领域感知运动场适配器（MOFA-Adapter）为冻结的视频扩散模型（SVD）添加可控运动能力，支持手绘轨迹、人脸关键点等多种控制信号及其组合，实现开放域可控图像动画。

研究背景与动机¶

领域内动画方法（如 SadTalker）可精细控制特定类别（人脸、流体），但受限于特定领域，无法泛化到开放域
扩散式 I2V 模型（如 SVD、AnimateDiff）可处理开放域图像动画，但生成内容可能偏离输入图像，且仅支持文本或简单闲置动画，控制能力弱
已有控制方法的不足：DragNUWA 通过自适应归一化建模轨迹但空间对应性差；MotionCtrl 依赖 T2V 模型缺少世界坐标系
核心问题：如何构建一个统一框架，在开放域图像上实现来自多个运动领域的精细可控动画？

方法详解¶

整体框架¶

MOFA-Video 在冻结的 Stable Video Diffusion（SVD）上附加 MOFA-Adapter 作为运动控制模块，类似 ControlNet 的思路。核心是将不同领域的控制信号统一为稀疏运动向量表示，再通过统一的适配器结构生成视频。

关键设计¶

1. MOFA-Adapter 结构： - 稀疏到稠密（S2D）运动生成网络：接受第一帧图像和稀疏运动提示，生成稠密光流场，采用 CMP 网络结构 - 参考图像编码器：多尺度卷积特征编码器，提取第一帧的多尺度特征用于 warp - 融合编码器：SVD 编码器的可训练副本，将 warp 后的特征与 SVD 解码器的特征融合

2. 领域感知运动控制： - 开放域轨迹：从视频光流中采样稀疏运动向量进行训练，推理时接受手绘轨迹 - 人脸关键点：将面部关键点位移转化为稀疏运动向量，统一表示简化框架 - 多适配器组合：不同领域的 MOFA-Adapter 可零样本联合使用，通过掩码感知策略融合不同区域的控制信号

3. 长视频生成：提出周期采样策略，每个扩散步内将帧分组（14帧/组，7帧重叠），对重叠帧的预测噪声取平均，实现更长视频的时序一致性

损失函数¶

冻结 SVD 参数，仅优化 MOFA-Adapter 参数 \(\theta_{\mathcal{M}}\)：

\[\mathcal{L} = \| \mathcal{S}(\mathcal{V}_t, t, \mathcal{M}(\mathcal{V}_t, t, I, F^s; \theta_{\mathcal{M}})) - \mathcal{V} \|^2\]

其中 \(\mathcal{S}\) 为冻结的 SVD，\(\mathcal{V}\) 为视频潜在表示。

实验关键数据¶

主实验¶

轨迹控制对比（vs DragNUWA）：

方法	帧一致性↑	LPIPS↓	FID↓	FVD↓	控制精度(用户)↑	视觉质量(用户)↑
DragNUWA	0.9302	0.2705	19.66	91.38	2.76	3.18
MOFA-Video	0.9390	0.2274	16.82	86.76	3.58	3.42

人像动画对比（vs SadTalker, StyleHEAT）：

方法	CPBD↑	ID↑	保真度(用户)↑	自然度(用户)↑	视觉质量(用户)↑
SadTalker	0.3218	0.9188	4.15	3.12	3.97
StyleHEAT	0.2577	0.7993	3.26	3.65	3.70
MOFA-Video	0.4075	0.9293	4.80	3.97	4.52

消融实验¶

网络结构消融（轨迹控制）：

变体	LPIPS↓	FID↓	FVD↓
w/o warping（纯稀疏条件）	0.2619	18.80	184.27
w/o S2D（稀疏 warp）	0.2376	16.87	81.80
w/o tuning（直接用重建模型）	0.2163	16.97	102.17
完整模型	0.2274	16.82	86.76

关键发现¶

稀疏条件模型无法精确控制目标物体轨迹，因为缺乏空间 warp 操作导致空间不对齐
稀疏 warp 模型能控制轨迹但由于缺少稠密光流指导，生成结果有严重伪影
不同领域的 MOFA-Adapter 必须分别训练，直接用开放域模型做人脸动画会导致不自然表情
周期采样策略显著优于朴素帧分组方法，有效解决了长视频的误差累积和时序不一致问题

亮点与洞察¶

将多领域运动控制统一为稀疏运动向量问题，设计优雅且可扩展
显式的稀疏到稠密光流生成 + 特征 warp 策略在控制精度和生成质量之间取得了良好平衡
多 MOFA-Adapter 的零样本组合能力使得同时控制人脸表情和背景运动成为可能
相比 DragNUWA 的隐式轨迹建模，显式光流方法能更好地限定运动区域

局限性¶

无法控制/生成远离输入图像的新内容（受限于 SVD 的短视频训练数据）
大运动引导下可能出现模糊或结构损失等视觉伪影
视频长度受限于 SVD 的 14 帧窗口，长视频需要额外的周期采样策略

评分¶

新颖性: 7/10 — 适配器思路源自 ControlNet，核心创新在于运动场的统一建模和多领域组合
技术深度: 8/10 — S2D + warp 的显式运动建模设计扎实，多适配器组合方案合理
实验充分度: 8/10 — 对比实验和消融实验较全面，但缺少定量的长视频评估
影响力: 7/10 — 为可控视频生成提供了实用的统一框架

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性¶

评分¶

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性¶

评分¶

相关论文¶