FlowMotion: Training-Free Flow Guidance for Video Motion Transfer¶

会议: CVPR2026
arXiv: 2603.06289
代码: HKUST-LongGroup/FlowMotion
领域: video generation / motion transfer
关键词: video motion transfer, flow matching, training-free, latent prediction, velocity regularization

一句话总结¶

提出 FlowMotion，一种无需训练的视频运动迁移框架，通过直接利用 flow-based T2V 模型的预测输出（latent prediction）构建运动引导信号，避免对模型内部层做梯度回传，在保持运动保真度的同时大幅降低推理时间和显存开销。

背景与动机¶

视频运动迁移需求：给定源视频和文本提示，生成保留源视频运动模式（物体移动、相机轨迹等）但渲染新场景的目标视频，在虚拟现实、影视制作等领域有广泛应用。
训练方法代价高：MotionDirector、MotionInversion 等方法需要对每个参考视频微调 temporal attention 或 LoRA 参数，训练耗时 20 分钟～2+ 小时，不适用于实时或大规模场景。
现有 training-free 方法效率低：MotionClone、SMM、DiTFlow 等方法依赖模型内部中间层输出（attention map / diffusion feature），需要通过内部深层做梯度回传，GPU 显存高达 51–89 GB，推理时间 350–1800+ 秒。
中间层依赖限制灵活性：现有 training-free 方法绑定特定架构（U-Net / DiT），难以泛化到新模型；部分方法还需要额外的 inversion 过程，进一步增加时间开销。
Flow-based T2V 模型崛起：Wan、HunyuanVideo 等基于 flow matching + DiT 的模型已成为 SOTA，但现有运动迁移方法尚未充分利用 flow-based 模型的特性。
关键观察——早期 latent prediction 编码丰富时序信息：作者分析发现，flow-based T2V 模型在去噪过程的前几步，其 latent prediction（单步估计的干净 latent）就已经包含粗糙的运动轨迹和时序动态，而外观细节随后逐步累积——这为直接在预测输出上构建运动引导提供了理论基础。

方法详解¶

整体框架¶

FlowMotion 建立在 flow-based T2V 模型（如 Wan2.1/2.2）之上，核心流程：

源视频运动表示提取（无需 inversion）：将源视频编码为干净 latent \(z_0^{src}\)，通过前向加噪得到 \(z_t^{src}\)，输入 T2V 模型预测速度 \(v_t^{src}\)，再计算 latent prediction \(\hat{z}_0^{src}(t) = z_t^{src} - t \cdot v_t^{src}\) 作为运动表示。
目标视频生成时的 flow guidance：在去噪的前 10 步，对目标 latent \(z_t\) 计算其 latent prediction \(\hat{z}_0(t)\)，通过 flow guidance loss 与源视频的运动表示对齐，梯度只回传到 latent 本身而非模型内部层。
Velocity regularization：对每步速度做正则化，抑制过对齐和方向突变，保证平滑稳定的运动演化。

Flow Guidance 设计（两个目标）¶

Latent Alignment (LA)：直接对齐源和目标的 latent prediction，保持全局运动一致性：\(\mathcal{L}_{LA} = \|\hat{z}_0^{src}(t) - \hat{z}_0(t)\|_2^2\)
Difference Alignment (DA)：计算帧间差异 \(\triangle(\hat{z}_0^{src}(t))\) 和 \(\triangle(\hat{z}_0(t))\) 并对齐，强调时序变化、抑制静态外观信息：\(\mathcal{L}_{DA} = \|\triangle(\hat{z}_0^{src}(t)) - \triangle(\hat{z}_0(t))\|_2^2\)
总 loss：\(\mathcal{L}_{FG} = \alpha \cdot \mathcal{L}_{LA} + \beta \cdot \mathcal{L}_{DA}\)，其中 \(\alpha:\beta = 4:1\)

Velocity Regularization¶

为避免直接优化 latent prediction 导致过拟合外观细节和时间步间不稳定更新：

计算累积平均速度 \(v_t^{avg} = (z_t - z_1) / (t-1)\)
将当前速度分解为沿 \(v_t^{avg}\) 的投影分量 \(v_t^{proj}\) 和正交分量 \(v_t^{orth}\)
以衰减因子 \(\gamma=0.1\) 抑制正交分量：\(v_t^{reg} = v_t^{proj} + \gamma \cdot v_t^{orth}\)
用正则化后的速度计算 latent prediction：\(\hat{z}_0(t) = z_t - t \cdot v_t^{reg}\)

损失函数与优化¶

仅在前 10 / 50 去噪步施加引导，每步使用 Adam 优化器做 3 步迭代优化目标 latent
学习率 0.003，CFG scale = 6
梯度仅回传到 latent 而非模型内部→显存开销极低

实验关键数据¶

主实验量化对比（Table 1）¶

方法	类型	骨干	Text Sim.↑	Motion Fid.↑	Temp. Cons.↑	训练时间(s)	推理时间(s)	显存(GB)
LoRA Tuning	train	Wan2.1-1.3B	0.327	0.782	0.977	8100	135	25.0
MotionDirector	train	ZeroScope-0.7B	0.335	0.801	0.969	1662	140	28.0
MotionInversion	train	ZeroScope-0.7B	0.328	0.839	0.970	1170	115	24.0
DeT	train	CogVideoX-2B	0.340	0.812	0.980	2760	133	20.0
MotionClone	free	AnimateDiff-1.3B	0.332	0.786	0.940	-	804	51.5
MOFT	free	AnimateDiff-1.3B	0.338	0.582	0.973	-	576	75.0
SMM	free	ZeroScope-0.7B	0.322	0.762	0.958	-	1839	89.4
DiTFlow	free	CogVideoX-2B	0.350	0.691	0.983	-	349	63.5
FlowMotion	free	Wan2.1-1.3B	0.347	0.850	0.986	-	213	19.3

FlowMotion 在 Motion Fidelity（0.850）和 Temporal Consistency（0.986）上均为最优，Text Similarity 第二仅次于 DiTFlow；推理时间仅 213s（training-free 最快），显存仅 19.3 GB（所有方法最低）。

消融实验（Table 3）¶

变体	Text Sim.↑	Motion Fid.↑	Temp. Cons.↑
w/o DA（去掉差异对齐）	0.341	0.842	0.981
w/o VR（去掉速度正则化）	0.313	0.809	0.968
完整 FlowMotion	0.347	0.850	0.986

去掉 VR 后所有指标大幅下降（尤其 Text Sim. 从 0.347→0.313），说明速度正则化对稳定优化至关重要。

显存效率分析（Table 4，同骨干 Wan2.1-1.3B）¶

引导来源	显存 (GB)
纯推理（无引导）	17.7
Latent Prediction（本方法）	19.3
Velocity 输出	93.1
Attention Map & Feature	OOM

Latent prediction 引导仅比纯推理多 1.6 GB，而直接用 velocity 做引导需 93 GB，attention 类引导直接 OOM。

用户研究（Table 2，20 名志愿者，1-5 分）¶

方法	Motion↑	Temp.↑	Text↑	Overall↑
MotionInversion	3.41	3.34	2.69	2.83
DiTFlow	2.48	3.18	3.16	2.63
DeT	3.87	3.83	3.38	3.47
FlowMotion	4.51	4.52	4.51	4.45

亮点¶

极简高效：引导信号直接基于模型预测输出，梯度不穿过模型内部层，显存仅 19.3 GB，推理 213s，是 training-free 方法中效率最优的
无需 inversion：通过前向加噪 + 空 prompt 提取源视频运动表示，跳过耗时的 inversion 过程
架构无关：不依赖特定的 attention 结构或 U-Net/DiT 内部模块，已验证可泛化至 Wan2.1-1.3B 和 Wan2.2-5B
Velocity regularization 设计精巧：通过将速度分解为沿累积方向的投影和正交分量，衰减正交分量来抑制过对齐，思路简洁有效

局限性 / 可改进方向¶

运动表示仍是全局的 latent-level 对齐，缺乏对局部/区域运动的精细控制（如只迁移前景运动而保持背景自由）
使用 latent prediction 作为运动表示会在一定程度上耦合外观信息，作者提到用干净 latent \(z_0^{src}\) 替代可提升精度但会降低文本对齐和背景多样性——如何自适应平衡仍待探索
评估只在 480×720、49 帧上进行，更高分辨率和更长视频下的扩展性未验证
基线方法使用不同骨干（因架构不兼容），公平性有一定局限

与相关工作的对比¶

对比维度	Training-based（MotionDirector/DeT）	Training-free（DiTFlow/SMM）	FlowMotion
是否需训练	需要，每视频微调	否	否
运动引导来源	学习到的参数	模型内部中间层输出	模型预测输出（latent prediction）
显存需求	20-28 GB	51-89 GB	19.3 GB
推理时间	115-140s（+训练时间）	349-1839s	213s
架构依赖	绑定特定骨干	依赖内部结构（attention/feature）	架构无关
运动保真度	高（但易过拟合外观）	中等	最高

评分¶

新颖性: ⭐⭐⭐⭐ — 从 flow matching 的 latent prediction 角度切入运动迁移，观察新颖且设计简洁
实验充分度: ⭐⭐⭐⭐ — 覆盖定量/定性/消融/用户研究/显存分析，基线对比完整
写作质量: ⭐⭐⭐⭐ — 图表清晰，motivation 分析有说服力，结构规范
价值: ⭐⭐⭐⭐ — 在 training-free 运动迁移上实现效率和性能的显著提升，有实用价值