Hierarchical Flow Diffusion for Efficient Frame Interpolation¶

会议: CVPR 2025
arXiv: 2504.00380
代码: 项目页面
领域: 图像生成 / 视频插帧
关键词: 视频帧插值, 扩散模型, 光流, 层次化去噪, 端到端训练

一句话总结¶

HFD 提出在多尺度上用扩散模型显式去噪双向光流（而非在潜空间直接去噪），结合光流引导的编解码器图像合成器端到端联合训练，在精度上全面超越所有基线，同时推理速度比其他扩散方法快 10+ 倍。

研究背景与动机¶

领域现状：视频帧插值旨在给定连续两帧生成中间帧，核心是估计双向光流并据此 warp 图像。当前非扩散方法（如 SGM-VFI）基于编解码器范式用双向光流做中间监督，但只能产生过平滑的均值解。扩散方法（如 LDMVFI、CBBD）虽然生成更锐利的结果，但在潜空间直接去噪搜索空间大、效率低、难以处理大位移。

现有痛点：(1) 非扩散方法：双向光流是欠定问题，没有 GT 光流监督，只能回归均值解 → 结果模糊；(2) 扩散方法：在高维潜空间直接去噪 → 搜索空间大、效率低（8-30 秒/帧）、无法处理复杂运动和大位移。

核心矛盾：扩散模型的锐利生成能力 vs 在潜空间直接去噪的低效率和对大运动的无力。

本文切入角度：光流本身只有 4 通道（2×2D），搜索空间远小于潜空间。将扩散模型的去噪目标从"潜空间重建"转变为"光流估计"，并用层次化策略从粗到细逐级去噪光流，可同时解决效率和大运动问题。

核心 idea：用层次化扩散模型从粗到细对光流去噪（而非潜空间），然后用光流引导合成器生成最终图像，端到端联合训练。

方法详解¶

整体框架¶

三阶段训练管线：(1) 第一阶段：训练光流引导的编解码器图像合成器 \(g\)，用预训练光流模型提供伪 GT 光流进行监督；(2) 第二阶段：冻结合成器，训练层次化光流扩散模型，以编码器特征为条件，在多个分辨率尺度上去噪光流；(3) 第三阶段：联合微调扩散模型和合成器，用 photometric loss 端到端优化。

关键设计¶

光流引导的图像合成器 (Flow-Guided Image Synthesizer):
- 功能：给定双向光流和输入图像对，合成中间帧
- 核心思路：多尺度编解码器架构。将双向光流 resize 到每层特征分辨率，用光流 warp 对应层的编码器特征，融合 warp 后的编码器特征和解码器特征。最终层输出 4 通道——1 通道混合 mask \(M\)、3 通道 RGB 残差 \(\Delta I\)：\(\tilde{I}_t = M \odot w(I_0, \tilde{f}_0) + (1-M) \odot w(I_1, \tilde{f}_1) + \Delta I\)
- 设计动机：光流引导的多尺度 warp 使合成器能利用不同层的空间特征，残差项补偿遮挡区域
层次化光流扩散 (Hierarchical Flow Diffusion):
- 功能：从高斯噪声出发，在多尺度上从粗到细生成双向光流
- 核心思路：使用 3 个金字塔层（1/16 → 1/8 → 1/4 分辨率），去噪过程均匀分为 3 段，每段对应一个分辨率。同一层级内用 DDPM/DDIM 反向去噪；跨层级过渡时用 2× 双线性上采样流场并加噪作为下一层级输入。U-Net 参数在各层级间共享（flow projector 和 feature projector 除外），以编码器特征 \((F_0^i, F_1^i)\) 为条件
- 设计动机：光流从粗到细天然适配层次化策略——低分辨率捕捉大位移全局运动，高分辨率补充细节。搜索空间极大压缩（4 通道光流 vs 高维潜空间），推理时仅需 6 步 DDIM 采样
端到端联合微调 (End-to-End Joint Fine-tuning):
- 功能：将扩散模型和合成器统一优化
- 核心思路：第三阶段将扩散模型预测的多尺度光流用于 warp 编码器特征送入解码器，用 photometric loss \(\mathcal{L}_{photo} = \mathcal{L}_{pixel} + 0.1\mathcal{L}_{lpips} + 20\mathcal{L}_{style}\) 端到端监督
- 设计动机：分阶段训练后联合微调可让扩散模型和合成器相互适应，实验证明联合微调显著提升性能

损失函数 / 训练策略¶

阶段 1（合成器）：Photometric loss = L1 + 0.1 × LPIPS + 20 × style loss，200 epochs，batch 64
阶段 2（扩散模型）：多尺度 L1 光流损失 \(\mathcal{L}_{flow} = \sum_i \|\tilde{f}_0^i - f_0^i\|_1 + \|\tilde{f}_1^i - f_1^i\|_1\)，200 epochs，batch 64
阶段 3（联合微调）：Photometric loss，100 epochs，batch 32
AdamW 优化器，One-Cycle 学习率调度（4e-4 → 4e-5）
训练数据：Vimeo90k（50k triplets），256×256 crop
推理：6 步 DDIM，先 resize 到短边 256 做扩散，再上采样光流到原始分辨率合成

实验关键数据¶

主实验¶

SNU-FILM 基准（LPIPS↓ / FID↓）：

方法	easy	medium	hard	extreme
SGM-VFI	0.0191 / 5.85	0.0329 / 10.95	0.0611 / 22.00	0.1182 / 41.08
CBBD	0.0112 / 4.79	0.0274 / 9.04	0.0467 / 18.59	0.1040 / 36.73
Ours	0.0098 / 4.54	0.0191 / 8.50	0.0405 / 15.32	0.0839 / 27.03

Xiph 4K 基准：

方法	LPIPS↓	FID↓
CBBD	0.0634	24.62
Ours	0.0614	14.13

DAVIS & Vimeo-90k：

方法	DAVIS LPIPS↓ / FID↓	Vimeo LPIPS↓ / FID↓
CBBD	0.0919 / 9.22	0.0123 / 1.96
Ours	0.0753 / 7.24	0.0120 / 1.71

消融实验¶

层次化 vs 单尺度扩散：

方法	SNU-hard LPIPS↓	SNU-extreme FID↓
Vanilla (单尺度)	0.0625	46.41
Hierarchical (ours)	0.0405	27.03

关键发现¶

SNU-FILM extreme 子集上 FID 从 36.73（CBBD）大幅降至 27.03，说明层次化光流扩散对大位移和复杂运动场景优势最大
Xiph 4K 上 FID 从 24.62 降至 14.13（提升 43%），验证了高分辨率场景下的优势
推理速度 0.20 秒/帧（1024×1024），与非扩散 SOTA（SGM-VFI 0.19 秒）持平，比 LDMVFI（8.3 秒）和 CBBD（2.1 秒）快 10-40 倍
层次化策略比单尺度扩散在 SNU-extreme 上 FID 降低 42%，验证了从粗到细策略的关键作用

亮点与洞察¶

扩散目标的精准选择：将扩散去噪目标从"高维潜空间"缩小到"4 通道光流"是关键 insight，搜索空间的极大压缩是实现 10× 加速同时保持质量的根本原因
端到端联合微调的价值：三阶段训练=合成器预训练+扩散模型训练+联合微调，最后的联合微调让两模块互相适应，是工程上简单但效果显著的策略
伪 GT 光流的巧妙使用：帧插值没有 GT 光流，用预训练光流网络估计伪 GT 来监督合成器训练是务实的解决方案

局限与展望¶

推理时先 resize 到短边 256 做扩散再上采样光流，高分辨率细节依赖上采样质量，可能在极细密纹理区域丢失信息
目前只支持两帧插值 t=0.5 的情况，未讨论任意时刻 t 的插值
3 个 pyramid level 和 6 步 DDIM 都是经验设定，缺少对最优配置的系统搜索
训练需三个阶段共 500 epochs，训练成本较高

评分¶

⭐⭐⭐⭐ (4/5)

创新性 ⭐⭐⭐⭐：扩散目标的选择（光流 vs 潜空间）是关键 insight，层次化策略是自然但有效的延伸
实验充分性 ⭐⭐⭐⭐⭐：4 个基准 × 多指标 × 效率对比，消融实验验证了各组件贡献
清晰度 ⭐⭐⭐⭐⭐：论文结构清晰，图示直观，方法描述精确
实用价值 ⭐⭐⭐⭐⭐：精度 SOTA + 速度与非扩散方法持平，具有直接的实际应用价值

title: >- [论文解读] Hierarchical Flow Diffusion for Efficient Frame Interpolation description: >- [CVPR 2025][图像生成][视频插帧] 本文提出层级光流扩散模型 HFD，用从粗到细的多尺度扩散显式建模双向光流，配合流引导图像合成器端到端训练，在视频插帧精度上达到 SOTA 且比其他扩散方法快 10 倍以上。 tags: - CVPR 2025 - 图像生成 - 视频插帧 - 扩散模型 - 光流估计 - 层级生成 - 多尺度建模

Hierarchical Flow Diffusion for Efficient Frame Interpolation¶

会议: CVPR 2025
arXiv: 2504.00380
代码: 项目页
领域: 图像生成 / 视频理解
关键词: 视频插帧, 扩散模型, 层级光流, 从粗到细, 端到端训练

一句话总结¶

本文提出在视频插帧中用层级扩散模型从粗到细显式去噪双向光流（而非直接去噪潜空间），再用流引导图像合成器生成最终帧，实现比其他扩散方法快 10+ 倍且精度 SOTA。

研究背景与动机¶

领域现状：视频插帧旨在给定连续两帧生成中间帧。主流方法基于编码器-解码器范式利用双向光流作为中间监督信号。最近的扩散方法将其建模为潜空间去噪过程。

现有痛点：(1) 非扩散方法（如 SGM-VFI）由于中间帧光流本质上是不适定问题（多解），只能产生过度平滑的均值解；(2) 扩散方法（如 LDMVFI、CBBD）虽能生成更锐利的结果，但直接在潜空间去噪的搜索空间太大，效率低且无法处理复杂运动和大位移。

核心矛盾：潜空间维度远大于光流空间（2 通道 × 空间分辨率），直接对潜空间做扩散效率低且不利于建模运动结构。

切入角度：光流只有 4 个通道（双向各 2 通道），搜索空间远小于潜空间。从粗到细地估计光流可以自然处理大位移运动。

核心 idea：将扩散过程从潜空间转移到光流空间，用层级从粗到细的策略高效去噪光流，再通过流引导合成器产出最终帧。

方法详解¶

整体框架¶

三阶段训练流程：(1) 第一阶段训练流引导图像合成器（编码器-解码器）；(2) 第二阶段冻结合成器训练层级流扩散模型；(3) 第三阶段端到端联合微调合成器和扩散模型。推理时：编码器提取多尺度特征→层级扩散从噪声去噪出多尺度光流→光流引导解码器合成目标帧。

关键设计¶

流引导图像合成器 (Flow-Guided Image Synthesizer):
- 功能：在已知光流条件下从两帧合成中间帧
- 核心思路：多尺度编码器-解码器架构。在每个尺度上用光流 warp 编码器特征，与解码器特征融合。最终输出包含混合 mask \(M\)、RGB 残差 \(\Delta\mathbf{I}\)，合成公式为 \(\tilde{\mathbf{I}}_t = M \odot w(\mathbf{I}_0, \tilde{f}_0) + (1-M) \odot w(\mathbf{I}_1, \tilde{f}_1) + \Delta\mathbf{I}\)
- 设计动机：先用预训练光流网络（UniMatch）产出伪 GT 光流训练合成器，使其学会从光流进行高质量图像合成，为后续扩散模型提供强条件信息
层级流扩散模型 (Hierarchical Flow Diffusion):
- 功能：从高斯噪声逐级去噪出多尺度双向光流
- 核心思路：将 DDPM 去噪过程均匀分配到 3 个金字塔层级（\(k_1{=}4\) 到 \(k_0{=}2\)，即 1/16→1/4 原分辨率）。在每个层级 \(i\)，U-Net 以该层级的编码器特征 \((\mathbf{F}_0^i, \mathbf{F}_1^i)\) 为条件去噪光流。跨层级过渡时，将当前估计光流 2× 上采样并用 DDPM 前向函数近似下一层级的输入。各层级共享 U-Net 参数，仅 flow projector 和 feature projector 独立
- 设计动机：从粗到细策略天然适合处理大位移（粗层级捕获大运动，细层级补充细节）。光流空间仅 4 通道，搜索空间远小于潜空间，去噪更高效
端到端联合微调 (End-to-End Joint Fine-tuning):
- 功能：将合成器和扩散模型联合优化，消除两阶段分离训练的信息断裂
- 核心思路：扩散模型输出的多尺度光流直接用于 warp 编码器特征送入合成器解码器，用光度损失监督最终合成图像质量。合成器和扩散模型同时更新梯度
- 设计动机：分离训练时合成器针对"完美"伪 GT 光流优化，但实际扩散模型输出的光流有预测误差，联合微调使两者互相适应

损失函数 / 训练策略¶

第一阶段（合成器训练）：光度损失 \(\mathcal{L}_{photo} = \mathcal{L}_{pixel} + 0.1 \cdot \mathcal{L}_{LPIPS} + 20 \cdot \mathcal{L}_{style}\)，200 epochs，batch 64
第二阶段（扩散训练）：多尺度光流 L1 损失 \(\mathcal{L}_{flow} = \sum_i \|\tilde{f}_0^i - f_0^i\|_1 + \|\tilde{f}_1^i - f_1^i\|_1\)，200 epochs，1000 去噪步
第三阶段（联合微调）：光度损失，100 epochs，batch 32
推理时使用 DDIM（\(\sigma_t{=}0\)）采样，仅需 6 步

实验关键数据¶

主实验¶

SNU-FILM 基准（LPIPS/FID，↓越低越好）：

方法	easy LPIPS	hard LPIPS	extreme LPIPS	extreme FID
SGM-VFI	0.0191	0.0611	0.1182	41.078
CBBD (扩散)	0.0112	0.0467	0.1040	36.729
Ours	0.0098	0.0405	0.0839	27.032

Xiph-4K（高分辨率挑战）：

方法	LPIPS	FID
CBBD	0.0634	24.621
Ours	0.0614	14.132

DAVIS + Vimeo-90k：

数据集	方法	LPIPS	FID
DAVIS	CBBD	0.0919	9.220
DAVIS	Ours	0.0753	7.237
Vimeo	CBBD	0.0123	1.961
Vimeo	Ours	0.0120	1.712

消融实验¶

配置	SNUFILM-hard LPIPS	extreme LPIPS
Vanilla（单尺度扩散）	0.0625	0.1199
层级扩散（Ours）	0.0405	0.0839

关键发现¶

在所有 4 个数据集上全面超越现有最佳扩散方法 CBBD 和非扩散方法 SGM-VFI
在困难场景（hard/extreme）中优势尤为显著：extreme FID 27.0 vs CBBD 36.7（改善 26%）
推理速度 0.20s（1024×1024），与最快的非扩散方法 SGM-VFI 持平，比扩散 CBBD 快 10×
层级策略相比单尺度扩散在 hard 子集上 LPIPS 改善 35%

亮点与洞察¶

扩散目标的巧妙转移：不对潜空间扩散而对光流扩散，将搜索空间从高维潜空间缩减到 4 通道光流，实质性提升效率
层级从粗到细与扩散天然兼容：扩散本身就是噪声→信号的渐进过程，与光流从粗到细的估计方式完美契合
达成速度-质量的双重 SOTA：同时在精度和效率上超越所有基线，打破了扩散方法"质量换速度"的固有印象

局限与展望¶

依赖预训练光流网络提供伪 GT，光流质量上界受限于该网络
仅支持两帧间单帧插值，未讨论多帧插值或任意时间步插值
仅用 6 步推理采样，更多步数是否能进一步提升质量未充分探讨
可探索将层级扩散策略推广到视频生成或其他对运动敏感的任务

评分¶

⭐⭐⭐⭐ — 方法设计简洁有效，动机清晰，实验全面且令人信服。将扩散从潜空间转移到光流空间是关键洞察，速度和质量的双重提升有实际应用价值。

Hierarchical Flow Diffusion for Efficient Frame Interpolation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Hierarchical Flow Diffusion for Efficient Frame Interpolation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶