Consistent and Controllable Image Animation with Motion Diffusion Models¶

会议: CVPR 2025
arXiv: 2407.15642
代码: https://maxin-cn.github.io/cinemo_project
领域: 扩散模型 / 视频生成
关键词: 图像动画, 运动残差扩散, 运动强度控制, DCT初始化, 时间一致性

一句话总结¶

提出 Cinemo，基于扩散模型的图像动画方法，通过学习运动残差（而非直接预测帧）分布大幅提升与输入图像的时间一致性，配合 SSIM 运动强度控制和 DCT 噪声初始化实现精细可控的 I2V 生成，在 UCF-101 和 MSR-VTT 上全面超越现有方法。

领域现状：图像到视频（I2V）生成通过扩散模型取得了快速进展。现有方法直接预测视频帧的潜在表示，但难以保证生成帧与输入图像的高度一致性。

现有痛点：(1) 直接预测帧导致与输入图像的色彩和结构偏移；(2) 运动强度难以精细控制——太弱时画面静止，太强时结构崩坏；(3) FFT 基噪声初始化虽能提供全局一致性但引入高频伪影和色彩不一致。

核心矛盾：需要在保持输入图像一致性的同时生成自然运动，且让用户精细控制运动幅度。

本文目标 在 I2V 生成中实现高一致性+细粒度运动控制+无伪影的初始化。

切入角度：学习运动残差（帧差）而非完整帧——残差空间幅度小、结构简单，扩散模型更容易学习，且天然保证输入帧一致性。

核心 idea：在 latent 空间学习运动残差分布，用 SSIM 运动桶控制强度，DCT 初始化替代 FFT 消除高频伪影。

运动残差扩散：学习后续帧与首帧在 latent 空间的差值分布，而非直接预测帧。生成时将残差加回首帧 latent 得到视频帧。残差幅度远小于完整帧，降低学习难度并天然保持与输入一致
SSIM 运动强度控制：将训练视频按 SSIM 值分为 20 个运动桶（0-19），推理时用户选择桶号精细控制运动幅度。SSIM 比光流更鲁棒，直接衡量视觉变化量
DCTInit 噪声精修：用 DCT（而非 FFT）低频系数精修初始噪声。FFT 的实虚部分别替换会引入高频伪影和色彩偏移，DCT 仅有实系数避免了此问题

基于 LaVie 视频扩散模型微调。标准扩散去噪损失。320×512 分辨率。

方法	UCF-101 FVD↓	IS↑	FID↓	MSR-VTT FVD↓	CLIPSIM↑
ConsistI2V	177.66	56.22%	15.74%	104.58	0.2674
SEINE	306.49	54.02%	26.00%	152.63	0.2774
Cinemo	168.16	58.71%	13.17%	93.51%	0.2858

五个指标全面最优，也超越商用工具（Gen-2, Pika Labs）。