跳转至

Hierarchical Flow Diffusion for Efficient Frame Interpolation

会议: CVPR 2025
arXiv: 2504.00380
代码: 项目页面
领域: 图像生成 / 视频插帧
关键词: 视频帧插值, 扩散模型, 光流, 层次化去噪, 端到端训练

一句话总结

HFD 提出在多尺度上用扩散模型显式去噪双向光流(而非在潜空间直接去噪),结合光流引导的编解码器图像合成器端到端联合训练,在精度上全面超越所有基线,同时推理速度比其他扩散方法快 10+ 倍。

研究背景与动机

领域现状:视频帧插值旨在给定连续两帧生成中间帧,核心是估计双向光流并据此 warp 图像。当前非扩散方法(如 SGM-VFI)基于编解码器范式用双向光流做中间监督,但只能产生过平滑的均值解。扩散方法(如 LDMVFI、CBBD)虽然生成更锐利的结果,但在潜空间直接去噪搜索空间大、效率低、难以处理大位移。

现有痛点:(1) 非扩散方法:双向光流是欠定问题,没有 GT 光流监督,只能回归均值解 → 结果模糊;(2) 扩散方法:在高维潜空间直接去噪 → 搜索空间大、效率低(8-30 秒/帧)、无法处理复杂运动和大位移。

核心矛盾:扩散模型的锐利生成能力 vs 在潜空间直接去噪的低效率和对大运动的无力。

本文切入角度:光流本身只有 4 通道(2×2D),搜索空间远小于潜空间。将扩散模型的去噪目标从"潜空间重建"转变为"光流估计",并用层次化策略从粗到细逐级去噪光流,可同时解决效率和大运动问题。

核心 idea:用层次化扩散模型从粗到细对光流去噪(而非潜空间),然后用光流引导合成器生成最终图像,端到端联合训练。

方法详解

整体框架

三阶段训练管线:(1) 第一阶段:训练光流引导的编解码器图像合成器 \(g\),用预训练光流模型提供伪 GT 光流进行监督;(2) 第二阶段:冻结合成器,训练层次化光流扩散模型,以编码器特征为条件,在多个分辨率尺度上去噪光流;(3) 第三阶段:联合微调扩散模型和合成器,用 photometric loss 端到端优化。

关键设计

  1. 光流引导的图像合成器 (Flow-Guided Image Synthesizer):

    • 功能:给定双向光流和输入图像对,合成中间帧
    • 核心思路:多尺度编解码器架构。将双向光流 resize 到每层特征分辨率,用光流 warp 对应层的编码器特征,融合 warp 后的编码器特征和解码器特征。最终层输出 4 通道——1 通道混合 mask \(M\)、3 通道 RGB 残差 \(\Delta I\)\(\tilde{I}_t = M \odot w(I_0, \tilde{f}_0) + (1-M) \odot w(I_1, \tilde{f}_1) + \Delta I\)
    • 设计动机:光流引导的多尺度 warp 使合成器能利用不同层的空间特征,残差项补偿遮挡区域
  2. 层次化光流扩散 (Hierarchical Flow Diffusion):

    • 功能:从高斯噪声出发,在多尺度上从粗到细生成双向光流
    • 核心思路:使用 3 个金字塔层(1/16 → 1/8 → 1/4 分辨率),去噪过程均匀分为 3 段,每段对应一个分辨率。同一层级内用 DDPM/DDIM 反向去噪;跨层级过渡时用 2× 双线性上采样流场并加噪作为下一层级输入。U-Net 参数在各层级间共享(flow projector 和 feature projector 除外),以编码器特征 \((F_0^i, F_1^i)\) 为条件
    • 设计动机:光流从粗到细天然适配层次化策略——低分辨率捕捉大位移全局运动,高分辨率补充细节。搜索空间极大压缩(4 通道光流 vs 高维潜空间),推理时仅需 6 步 DDIM 采样
  3. 端到端联合微调 (End-to-End Joint Fine-tuning):

    • 功能:将扩散模型和合成器统一优化
    • 核心思路:第三阶段将扩散模型预测的多尺度光流用于 warp 编码器特征送入解码器,用 photometric loss \(\mathcal{L}_{photo} = \mathcal{L}_{pixel} + 0.1\mathcal{L}_{lpips} + 20\mathcal{L}_{style}\) 端到端监督
    • 设计动机:分阶段训练后联合微调可让扩散模型和合成器相互适应,实验证明联合微调显著提升性能

损失函数 / 训练策略

  • 阶段 1(合成器):Photometric loss = L1 + 0.1 × LPIPS + 20 × style loss,200 epochs,batch 64
  • 阶段 2(扩散模型):多尺度 L1 光流损失 \(\mathcal{L}_{flow} = \sum_i \|\tilde{f}_0^i - f_0^i\|_1 + \|\tilde{f}_1^i - f_1^i\|_1\),200 epochs,batch 64
  • 阶段 3(联合微调):Photometric loss,100 epochs,batch 32
  • AdamW 优化器,One-Cycle 学习率调度(4e-4 → 4e-5)
  • 训练数据:Vimeo90k(50k triplets),256×256 crop
  • 推理:6 步 DDIM,先 resize 到短边 256 做扩散,再上采样光流到原始分辨率合成

实验关键数据

主实验

SNU-FILM 基准(LPIPS↓ / FID↓):

方法 easy medium hard extreme
SGM-VFI 0.0191 / 5.85 0.0329 / 10.95 0.0611 / 22.00 0.1182 / 41.08
CBBD 0.0112 / 4.79 0.0274 / 9.04 0.0467 / 18.59 0.1040 / 36.73
Ours 0.0098 / 4.54 0.0191 / 8.50 0.0405 / 15.32 0.0839 / 27.03

Xiph 4K 基准:

方法 LPIPS↓ FID↓
CBBD 0.0634 24.62
Ours 0.0614 14.13

DAVIS & Vimeo-90k:

方法 DAVIS LPIPS↓ / FID↓ Vimeo LPIPS↓ / FID↓
CBBD 0.0919 / 9.22 0.0123 / 1.96
Ours 0.0753 / 7.24 0.0120 / 1.71

消融实验

层次化 vs 单尺度扩散:

方法 SNU-hard LPIPS↓ SNU-extreme FID↓
Vanilla (单尺度) 0.0625 46.41
Hierarchical (ours) 0.0405 27.03

关键发现

  • SNU-FILM extreme 子集上 FID 从 36.73(CBBD)大幅降至 27.03,说明层次化光流扩散对大位移和复杂运动场景优势最大
  • Xiph 4K 上 FID 从 24.62 降至 14.13(提升 43%),验证了高分辨率场景下的优势
  • 推理速度 0.20 秒/帧(1024×1024),与非扩散 SOTA(SGM-VFI 0.19 秒)持平,比 LDMVFI(8.3 秒)和 CBBD(2.1 秒)快 10-40 倍
  • 层次化策略比单尺度扩散在 SNU-extreme 上 FID 降低 42%,验证了从粗到细策略的关键作用

亮点与洞察

  1. 扩散目标的精准选择:将扩散去噪目标从"高维潜空间"缩小到"4 通道光流"是关键 insight,搜索空间的极大压缩是实现 10× 加速同时保持质量的根本原因
  2. 端到端联合微调的价值:三阶段训练=合成器预训练+扩散模型训练+联合微调,最后的联合微调让两模块互相适应,是工程上简单但效果显著的策略
  3. 伪 GT 光流的巧妙使用:帧插值没有 GT 光流,用预训练光流网络估计伪 GT 来监督合成器训练是务实的解决方案

局限与展望

  • 推理时先 resize 到短边 256 做扩散再上采样光流,高分辨率细节依赖上采样质量,可能在极细密纹理区域丢失信息
  • 目前只支持两帧插值 t=0.5 的情况,未讨论任意时刻 t 的插值
  • 3 个 pyramid level 和 6 步 DDIM 都是经验设定,缺少对最优配置的系统搜索
  • 训练需三个阶段共 500 epochs,训练成本较高

相关工作与启发

  • 与光流估计领域的扩散方法(FlowDiffuser、DDVM)不同,本文无 GT 光流、在帧插值任务下自监督训练扩散模型
  • 层次化从粗到细策略在光流(RAFT)和图像生成(级联扩散)中都有悠久历史,本文的贡献是将其巧妙组合到帧插值场景
  • 对视频生成领域的启发:是否可以将视频生成也解耦为"运动扩散 + 外观合成"两阶段?

评分

⭐⭐⭐⭐ (4/5)

  • 创新性 ⭐⭐⭐⭐:扩散目标的选择(光流 vs 潜空间)是关键 insight,层次化策略是自然但有效的延伸
  • 实验充分性 ⭐⭐⭐⭐⭐:4 个基准 × 多指标 × 效率对比,消融实验验证了各组件贡献
  • 清晰度 ⭐⭐⭐⭐⭐:论文结构清晰,图示直观,方法描述精确
  • 实用价值 ⭐⭐⭐⭐⭐:精度 SOTA + 速度与非扩散方法持平,具有直接的实际应用价值

title: >- [论文解读] Hierarchical Flow Diffusion for Efficient Frame Interpolation description: >- [CVPR 2025][图像生成][视频插帧] 本文提出层级光流扩散模型 HFD,用从粗到细的多尺度扩散显式建模双向光流,配合流引导图像合成器端到端训练,在视频插帧精度上达到 SOTA 且比其他扩散方法快 10 倍以上。 tags: - CVPR 2025 - 图像生成 - 视频插帧 - 扩散模型 - 光流估计 - 层级生成 - 多尺度建模


Hierarchical Flow Diffusion for Efficient Frame Interpolation

会议: CVPR 2025
arXiv: 2504.00380
代码: 项目页
领域: 图像生成 / 视频理解
关键词: 视频插帧, 扩散模型, 层级光流, 从粗到细, 端到端训练

一句话总结

本文提出在视频插帧中用层级扩散模型从粗到细显式去噪双向光流(而非直接去噪潜空间),再用流引导图像合成器生成最终帧,实现比其他扩散方法快 10+ 倍且精度 SOTA。

研究背景与动机

领域现状:视频插帧旨在给定连续两帧生成中间帧。主流方法基于编码器-解码器范式利用双向光流作为中间监督信号。最近的扩散方法将其建模为潜空间去噪过程。

现有痛点:(1) 非扩散方法(如 SGM-VFI)由于中间帧光流本质上是不适定问题(多解),只能产生过度平滑的均值解;(2) 扩散方法(如 LDMVFI、CBBD)虽能生成更锐利的结果,但直接在潜空间去噪的搜索空间太大,效率低且无法处理复杂运动和大位移。

核心矛盾:潜空间维度远大于光流空间(2 通道 × 空间分辨率),直接对潜空间做扩散效率低且不利于建模运动结构。

切入角度:光流只有 4 个通道(双向各 2 通道),搜索空间远小于潜空间。从粗到细地估计光流可以自然处理大位移运动。

核心 idea:将扩散过程从潜空间转移到光流空间,用层级从粗到细的策略高效去噪光流,再通过流引导合成器产出最终帧。

方法详解

整体框架

三阶段训练流程:(1) 第一阶段训练流引导图像合成器(编码器-解码器);(2) 第二阶段冻结合成器训练层级流扩散模型;(3) 第三阶段端到端联合微调合成器和扩散模型。推理时:编码器提取多尺度特征→层级扩散从噪声去噪出多尺度光流→光流引导解码器合成目标帧。

关键设计

  1. 流引导图像合成器 (Flow-Guided Image Synthesizer):

    • 功能:在已知光流条件下从两帧合成中间帧
    • 核心思路:多尺度编码器-解码器架构。在每个尺度上用光流 warp 编码器特征,与解码器特征融合。最终输出包含混合 mask \(M\)、RGB 残差 \(\Delta\mathbf{I}\),合成公式为 \(\tilde{\mathbf{I}}_t = M \odot w(\mathbf{I}_0, \tilde{f}_0) + (1-M) \odot w(\mathbf{I}_1, \tilde{f}_1) + \Delta\mathbf{I}\)
    • 设计动机:先用预训练光流网络(UniMatch)产出伪 GT 光流训练合成器,使其学会从光流进行高质量图像合成,为后续扩散模型提供强条件信息
  2. 层级流扩散模型 (Hierarchical Flow Diffusion):

    • 功能:从高斯噪声逐级去噪出多尺度双向光流
    • 核心思路:将 DDPM 去噪过程均匀分配到 3 个金字塔层级(\(k_1{=}4\)\(k_0{=}2\),即 1/16→1/4 原分辨率)。在每个层级 \(i\),U-Net 以该层级的编码器特征 \((\mathbf{F}_0^i, \mathbf{F}_1^i)\) 为条件去噪光流。跨层级过渡时,将当前估计光流 2× 上采样并用 DDPM 前向函数近似下一层级的输入。各层级共享 U-Net 参数,仅 flow projector 和 feature projector 独立
    • 设计动机:从粗到细策略天然适合处理大位移(粗层级捕获大运动,细层级补充细节)。光流空间仅 4 通道,搜索空间远小于潜空间,去噪更高效
  3. 端到端联合微调 (End-to-End Joint Fine-tuning):

    • 功能:将合成器和扩散模型联合优化,消除两阶段分离训练的信息断裂
    • 核心思路:扩散模型输出的多尺度光流直接用于 warp 编码器特征送入合成器解码器,用光度损失监督最终合成图像质量。合成器和扩散模型同时更新梯度
    • 设计动机:分离训练时合成器针对"完美"伪 GT 光流优化,但实际扩散模型输出的光流有预测误差,联合微调使两者互相适应

损失函数 / 训练策略

  • 第一阶段(合成器训练):光度损失 \(\mathcal{L}_{photo} = \mathcal{L}_{pixel} + 0.1 \cdot \mathcal{L}_{LPIPS} + 20 \cdot \mathcal{L}_{style}\),200 epochs,batch 64
  • 第二阶段(扩散训练):多尺度光流 L1 损失 \(\mathcal{L}_{flow} = \sum_i \|\tilde{f}_0^i - f_0^i\|_1 + \|\tilde{f}_1^i - f_1^i\|_1\),200 epochs,1000 去噪步
  • 第三阶段(联合微调):光度损失,100 epochs,batch 32
  • 推理时使用 DDIM(\(\sigma_t{=}0\))采样,仅需 6 步

实验关键数据

主实验

SNU-FILM 基准(LPIPS/FID,↓越低越好):

方法 easy LPIPS hard LPIPS extreme LPIPS extreme FID
SGM-VFI 0.0191 0.0611 0.1182 41.078
CBBD (扩散) 0.0112 0.0467 0.1040 36.729
Ours 0.0098 0.0405 0.0839 27.032

Xiph-4K(高分辨率挑战):

方法 LPIPS FID
CBBD 0.0634 24.621
Ours 0.0614 14.132

DAVIS + Vimeo-90k:

数据集 方法 LPIPS FID
DAVIS CBBD 0.0919 9.220
DAVIS Ours 0.0753 7.237
Vimeo CBBD 0.0123 1.961
Vimeo Ours 0.0120 1.712

消融实验

配置 SNUFILM-hard LPIPS extreme LPIPS
Vanilla(单尺度扩散) 0.0625 0.1199
层级扩散(Ours) 0.0405 0.0839

关键发现

  • 在所有 4 个数据集上全面超越现有最佳扩散方法 CBBD 和非扩散方法 SGM-VFI
  • 在困难场景(hard/extreme)中优势尤为显著:extreme FID 27.0 vs CBBD 36.7(改善 26%)
  • 推理速度 0.20s(1024×1024),与最快的非扩散方法 SGM-VFI 持平,比扩散 CBBD 快 10×
  • 层级策略相比单尺度扩散在 hard 子集上 LPIPS 改善 35%

亮点与洞察

  1. 扩散目标的巧妙转移:不对潜空间扩散而对光流扩散,将搜索空间从高维潜空间缩减到 4 通道光流,实质性提升效率
  2. 层级从粗到细与扩散天然兼容:扩散本身就是噪声→信号的渐进过程,与光流从粗到细的估计方式完美契合
  3. 达成速度-质量的双重 SOTA:同时在精度和效率上超越所有基线,打破了扩散方法"质量换速度"的固有印象

局限与展望

  • 依赖预训练光流网络提供伪 GT,光流质量上界受限于该网络
  • 仅支持两帧间单帧插值,未讨论多帧插值或任意时间步插值
  • 仅用 6 步推理采样,更多步数是否能进一步提升质量未充分探讨
  • 可探索将层级扩散策略推广到视频生成或其他对运动敏感的任务

相关工作与启发

  • SGM-VFI:非扩散 SOTA,统一前向/反向光流框架,高效但结果偏平滑
  • CBBD:基于扩散的插帧方法,本文在其潜空间扩散基础上改为光流扩散
  • FlowDiffuser / DDVM:将扩散应用于光流估计的工作,但针对的是有 GT 光流的监督设定
  • 启发:层级扩散策略可推广到其他需要多尺度结构化预测的视觉任务

评分

⭐⭐⭐⭐ — 方法设计简洁有效,动机清晰,实验全面且令人信服。将扩散从潜空间转移到光流空间是关键洞察,速度和质量的双重提升有实际应用价值。

相关论文