Consistent and Controllable Image Animation with Motion Diffusion Models¶
会议: CVPR 2025
arXiv: 2407.15642
代码: https://maxin-cn.github.io/cinemo_project
领域: 扩散模型 / 视频生成
关键词: 图像动画, 运动残差扩散, 运动强度控制, DCT初始化, 时间一致性
一句话总结¶
提出 Cinemo,基于扩散模型的图像动画方法,通过学习运动残差(而非直接预测帧)分布大幅提升与输入图像的时间一致性,配合 SSIM 运动强度控制和 DCT 噪声初始化实现精细可控的 I2V 生成,在 UCF-101 和 MSR-VTT 上全面超越现有方法。
研究背景与动机¶
领域现状¶
领域现状:图像到视频(I2V)生成通过扩散模型取得了快速进展。现有方法直接预测视频帧的潜在表示,但难以保证生成帧与输入图像的高度一致性。
现有痛点:(1) 直接预测帧导致与输入图像的色彩和结构偏移;(2) 运动强度难以精细控制——太弱时画面静止,太强时结构崩坏;(3) FFT 基噪声初始化虽能提供全局一致性但引入高频伪影和色彩不一致。
核心矛盾:需要在保持输入图像一致性的同时生成自然运动,且让用户精细控制运动幅度。
本文目标 在 I2V 生成中实现高一致性+细粒度运动控制+无伪影的初始化。
切入角度:学习运动残差(帧差)而非完整帧——残差空间幅度小、结构简单,扩散模型更容易学习,且天然保证输入帧一致性。
核心 idea:在 latent 空间学习运动残差分布,用 SSIM 运动桶控制强度,DCT 初始化替代 FFT 消除高频伪影。
方法详解¶
整体框架¶
关键设计¶
-
运动残差扩散:学习后续帧与首帧在 latent 空间的差值分布,而非直接预测帧。生成时将残差加回首帧 latent 得到视频帧。残差幅度远小于完整帧,降低学习难度并天然保持与输入一致
-
SSIM 运动强度控制:将训练视频按 SSIM 值分为 20 个运动桶(0-19),推理时用户选择桶号精细控制运动幅度。SSIM 比光流更鲁棒,直接衡量视觉变化量
-
DCTInit 噪声精修:用 DCT(而非 FFT)低频系数精修初始噪声。FFT 的实虚部分别替换会引入高频伪影和色彩偏移,DCT 仅有实系数避免了此问题
损失函数 / 训练策略¶
基于 LaVie 视频扩散模型微调。标准扩散去噪损失。320×512 分辨率。
实验关键数据¶
主实验¶
| 方法 | UCF-101 FVD↓ | IS↑ | FID↓ | MSR-VTT FVD↓ | CLIPSIM↑ |
|---|---|---|---|---|---|
| ConsistI2V | 177.66 | 56.22% | 15.74% | 104.58 | 0.2674 |
| SEINE | 306.49 | 54.02% | 26.00% | 152.63 | 0.2774 |
| Cinemo | 168.16 | 58.71% | 13.17% | 93.51% | 0.2858 |
五个指标全面最优,也超越商用工具(Gen-2, Pika Labs)。
关键发现¶
- 运动残差学习使输入一致性大幅提升(FID 13.17 vs ConsistI2V 15.74)
- DCTInit 比 FFTInit 在视觉质量上明显更好,无色彩偏移
- 运动桶提供直观的强度控制界面
局限与展望¶
- 分辨率固定 320×512(受 LaVie 限制)
- UNet 架构,Transformer 架构可能更具扩展性
评分¶
- 新颖性: ⭐⭐⭐⭐ 运动残差思路简单有效,DCTInit 比 FFTInit 更优的发现有价值
- 实验充分度: ⭐⭐⭐⭐ 多基准+商用工具对比+消融
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ 对 I2V 一致性问题有直接解决方案
亮点与洞察¶
- 方法设计简洁有效,核心思路清晰
- 实验验证全面,消融分析充分
- 对领域的关键问题提供了新的解决思路
相关工作与启发¶
- vs 同领域代表性方法:本文在方法设计上有独特贡献,与现有方法形成互补
- vs 传统方法:相比传统方案,本文方法在关键指标上取得了显著提升
- 启发:本文的技术路线对后续相关工作有重要参考价值
相关论文¶
- [CVPR 2025] MVPortrait: Text-Guided Motion and Emotion Control for Multi-View Vivid Portrait Animation
- [CVPR 2025] Image Referenced Sketch Colorization Based on Animation Creation Workflow
- [CVPR 2025] MixerMDM: Learnable Composition of Human Motion Diffusion Models
- [ECCV 2024] LivePhoto: Real Image Animation with Text-guided Motion Control
- [CVPR 2025] StableAnimator: High-Quality Identity-Preserving Human Image Animation