Hierarchical Flow Diffusion for Efficient Frame Interpolation¶
会议: CVPR 2025
arXiv: 2504.00380
代码: 项目页面
领域: 图像生成 / 视频插帧
关键词: 视频帧插值, 扩散模型, 光流, 层次化去噪, 端到端训练
一句话总结¶
HFD 提出在多尺度上用扩散模型显式去噪双向光流(而非在潜空间直接去噪),结合光流引导的编解码器图像合成器端到端联合训练,在精度上全面超越所有基线,同时推理速度比其他扩散方法快 10+ 倍。
研究背景与动机¶
领域现状:视频帧插值旨在给定连续两帧生成中间帧,核心是估计双向光流并据此 warp 图像。当前非扩散方法(如 SGM-VFI)基于编解码器范式用双向光流做中间监督,但只能产生过平滑的均值解。扩散方法(如 LDMVFI、CBBD)虽然生成更锐利的结果,但在潜空间直接去噪搜索空间大、效率低、难以处理大位移。
现有痛点:(1) 非扩散方法:双向光流是欠定问题,没有 GT 光流监督,只能回归均值解 → 结果模糊;(2) 扩散方法:在高维潜空间直接去噪 → 搜索空间大、效率低(8-30 秒/帧)、无法处理复杂运动和大位移。
核心矛盾:扩散模型的锐利生成能力 vs 在潜空间直接去噪的低效率和对大运动的无力。
本文切入角度:光流本身只有 4 通道(2×2D),搜索空间远小于潜空间。将扩散模型的去噪目标从"潜空间重建"转变为"光流估计",并用层次化策略从粗到细逐级去噪光流,可同时解决效率和大运动问题。
核心 idea:用层次化扩散模型从粗到细对光流去噪(而非潜空间),然后用光流引导合成器生成最终图像,端到端联合训练。
方法详解¶
整体框架¶
三阶段训练管线:(1) 第一阶段:训练光流引导的编解码器图像合成器 \(g\),用预训练光流模型提供伪 GT 光流进行监督;(2) 第二阶段:冻结合成器,训练层次化光流扩散模型,以编码器特征为条件,在多个分辨率尺度上去噪光流;(3) 第三阶段:联合微调扩散模型和合成器,用 photometric loss 端到端优化。
关键设计¶
-
光流引导的图像合成器 (Flow-Guided Image Synthesizer):
- 功能:给定双向光流和输入图像对,合成中间帧
- 核心思路:多尺度编解码器架构。将双向光流 resize 到每层特征分辨率,用光流 warp 对应层的编码器特征,融合 warp 后的编码器特征和解码器特征。最终层输出 4 通道——1 通道混合 mask \(M\)、3 通道 RGB 残差 \(\Delta I\):\(\tilde{I}_t = M \odot w(I_0, \tilde{f}_0) + (1-M) \odot w(I_1, \tilde{f}_1) + \Delta I\)
- 设计动机:光流引导的多尺度 warp 使合成器能利用不同层的空间特征,残差项补偿遮挡区域
-
层次化光流扩散 (Hierarchical Flow Diffusion):
- 功能:从高斯噪声出发,在多尺度上从粗到细生成双向光流
- 核心思路:使用 3 个金字塔层(1/16 → 1/8 → 1/4 分辨率),去噪过程均匀分为 3 段,每段对应一个分辨率。同一层级内用 DDPM/DDIM 反向去噪;跨层级过渡时用 2× 双线性上采样流场并加噪作为下一层级输入。U-Net 参数在各层级间共享(flow projector 和 feature projector 除外),以编码器特征 \((F_0^i, F_1^i)\) 为条件
- 设计动机:光流从粗到细天然适配层次化策略——低分辨率捕捉大位移全局运动,高分辨率补充细节。搜索空间极大压缩(4 通道光流 vs 高维潜空间),推理时仅需 6 步 DDIM 采样
-
端到端联合微调 (End-to-End Joint Fine-tuning):
- 功能:将扩散模型和合成器统一优化
- 核心思路:第三阶段将扩散模型预测的多尺度光流用于 warp 编码器特征送入解码器,用 photometric loss \(\mathcal{L}_{photo} = \mathcal{L}_{pixel} + 0.1\mathcal{L}_{lpips} + 20\mathcal{L}_{style}\) 端到端监督
- 设计动机:分阶段训练后联合微调可让扩散模型和合成器相互适应,实验证明联合微调显著提升性能
损失函数 / 训练策略¶
- 阶段 1(合成器):Photometric loss = L1 + 0.1 × LPIPS + 20 × style loss,200 epochs,batch 64
- 阶段 2(扩散模型):多尺度 L1 光流损失 \(\mathcal{L}_{flow} = \sum_i \|\tilde{f}_0^i - f_0^i\|_1 + \|\tilde{f}_1^i - f_1^i\|_1\),200 epochs,batch 64
- 阶段 3(联合微调):Photometric loss,100 epochs,batch 32
- AdamW 优化器,One-Cycle 学习率调度(4e-4 → 4e-5)
- 训练数据:Vimeo90k(50k triplets),256×256 crop
- 推理:6 步 DDIM,先 resize 到短边 256 做扩散,再上采样光流到原始分辨率合成
实验关键数据¶
主实验¶
SNU-FILM 基准(LPIPS↓ / FID↓):
| 方法 | easy | medium | hard | extreme |
|---|---|---|---|---|
| SGM-VFI | 0.0191 / 5.85 | 0.0329 / 10.95 | 0.0611 / 22.00 | 0.1182 / 41.08 |
| CBBD | 0.0112 / 4.79 | 0.0274 / 9.04 | 0.0467 / 18.59 | 0.1040 / 36.73 |
| Ours | 0.0098 / 4.54 | 0.0191 / 8.50 | 0.0405 / 15.32 | 0.0839 / 27.03 |
Xiph 4K 基准:
| 方法 | LPIPS↓ | FID↓ |
|---|---|---|
| CBBD | 0.0634 | 24.62 |
| Ours | 0.0614 | 14.13 |
DAVIS & Vimeo-90k:
| 方法 | DAVIS LPIPS↓ / FID↓ | Vimeo LPIPS↓ / FID↓ |
|---|---|---|
| CBBD | 0.0919 / 9.22 | 0.0123 / 1.96 |
| Ours | 0.0753 / 7.24 | 0.0120 / 1.71 |
消融实验¶
层次化 vs 单尺度扩散:
| 方法 | SNU-hard LPIPS↓ | SNU-extreme FID↓ |
|---|---|---|
| Vanilla (单尺度) | 0.0625 | 46.41 |
| Hierarchical (ours) | 0.0405 | 27.03 |
关键发现¶
- SNU-FILM extreme 子集上 FID 从 36.73(CBBD)大幅降至 27.03,说明层次化光流扩散对大位移和复杂运动场景优势最大
- Xiph 4K 上 FID 从 24.62 降至 14.13(提升 43%),验证了高分辨率场景下的优势
- 推理速度 0.20 秒/帧(1024×1024),与非扩散 SOTA(SGM-VFI 0.19 秒)持平,比 LDMVFI(8.3 秒)和 CBBD(2.1 秒)快 10-40 倍
- 层次化策略比单尺度扩散在 SNU-extreme 上 FID 降低 42%,验证了从粗到细策略的关键作用
亮点与洞察¶
- 扩散目标的精准选择:将扩散去噪目标从"高维潜空间"缩小到"4 通道光流"是关键 insight,搜索空间的极大压缩是实现 10× 加速同时保持质量的根本原因
- 端到端联合微调的价值:三阶段训练=合成器预训练+扩散模型训练+联合微调,最后的联合微调让两模块互相适应,是工程上简单但效果显著的策略
- 伪 GT 光流的巧妙使用:帧插值没有 GT 光流,用预训练光流网络估计伪 GT 来监督合成器训练是务实的解决方案
局限与展望¶
- 推理时先 resize 到短边 256 做扩散再上采样光流,高分辨率细节依赖上采样质量,可能在极细密纹理区域丢失信息
- 目前只支持两帧插值 t=0.5 的情况,未讨论任意时刻 t 的插值
- 3 个 pyramid level 和 6 步 DDIM 都是经验设定,缺少对最优配置的系统搜索
- 训练需三个阶段共 500 epochs,训练成本较高
相关工作与启发¶
- 与光流估计领域的扩散方法(FlowDiffuser、DDVM)不同,本文无 GT 光流、在帧插值任务下自监督训练扩散模型
- 层次化从粗到细策略在光流(RAFT)和图像生成(级联扩散)中都有悠久历史,本文的贡献是将其巧妙组合到帧插值场景
- 对视频生成领域的启发:是否可以将视频生成也解耦为"运动扩散 + 外观合成"两阶段?
评分¶
⭐⭐⭐⭐ (4/5)
- 创新性 ⭐⭐⭐⭐:扩散目标的选择(光流 vs 潜空间)是关键 insight,层次化策略是自然但有效的延伸
- 实验充分性 ⭐⭐⭐⭐⭐:4 个基准 × 多指标 × 效率对比,消融实验验证了各组件贡献
- 清晰度 ⭐⭐⭐⭐⭐:论文结构清晰,图示直观,方法描述精确
- 实用价值 ⭐⭐⭐⭐⭐:精度 SOTA + 速度与非扩散方法持平,具有直接的实际应用价值
title: >- [论文解读] Hierarchical Flow Diffusion for Efficient Frame Interpolation description: >- [CVPR 2025][图像生成][视频插帧] 本文提出层级光流扩散模型 HFD,用从粗到细的多尺度扩散显式建模双向光流,配合流引导图像合成器端到端训练,在视频插帧精度上达到 SOTA 且比其他扩散方法快 10 倍以上。 tags: - CVPR 2025 - 图像生成 - 视频插帧 - 扩散模型 - 光流估计 - 层级生成 - 多尺度建模
Hierarchical Flow Diffusion for Efficient Frame Interpolation¶
会议: CVPR 2025
arXiv: 2504.00380
代码: 项目页
领域: 图像生成 / 视频理解
关键词: 视频插帧, 扩散模型, 层级光流, 从粗到细, 端到端训练
一句话总结¶
本文提出在视频插帧中用层级扩散模型从粗到细显式去噪双向光流(而非直接去噪潜空间),再用流引导图像合成器生成最终帧,实现比其他扩散方法快 10+ 倍且精度 SOTA。
研究背景与动机¶
领域现状:视频插帧旨在给定连续两帧生成中间帧。主流方法基于编码器-解码器范式利用双向光流作为中间监督信号。最近的扩散方法将其建模为潜空间去噪过程。
现有痛点:(1) 非扩散方法(如 SGM-VFI)由于中间帧光流本质上是不适定问题(多解),只能产生过度平滑的均值解;(2) 扩散方法(如 LDMVFI、CBBD)虽能生成更锐利的结果,但直接在潜空间去噪的搜索空间太大,效率低且无法处理复杂运动和大位移。
核心矛盾:潜空间维度远大于光流空间(2 通道 × 空间分辨率),直接对潜空间做扩散效率低且不利于建模运动结构。
切入角度:光流只有 4 个通道(双向各 2 通道),搜索空间远小于潜空间。从粗到细地估计光流可以自然处理大位移运动。
核心 idea:将扩散过程从潜空间转移到光流空间,用层级从粗到细的策略高效去噪光流,再通过流引导合成器产出最终帧。
方法详解¶
整体框架¶
三阶段训练流程:(1) 第一阶段训练流引导图像合成器(编码器-解码器);(2) 第二阶段冻结合成器训练层级流扩散模型;(3) 第三阶段端到端联合微调合成器和扩散模型。推理时:编码器提取多尺度特征→层级扩散从噪声去噪出多尺度光流→光流引导解码器合成目标帧。
关键设计¶
-
流引导图像合成器 (Flow-Guided Image Synthesizer):
- 功能:在已知光流条件下从两帧合成中间帧
- 核心思路:多尺度编码器-解码器架构。在每个尺度上用光流 warp 编码器特征,与解码器特征融合。最终输出包含混合 mask \(M\)、RGB 残差 \(\Delta\mathbf{I}\),合成公式为 \(\tilde{\mathbf{I}}_t = M \odot w(\mathbf{I}_0, \tilde{f}_0) + (1-M) \odot w(\mathbf{I}_1, \tilde{f}_1) + \Delta\mathbf{I}\)
- 设计动机:先用预训练光流网络(UniMatch)产出伪 GT 光流训练合成器,使其学会从光流进行高质量图像合成,为后续扩散模型提供强条件信息
-
层级流扩散模型 (Hierarchical Flow Diffusion):
- 功能:从高斯噪声逐级去噪出多尺度双向光流
- 核心思路:将 DDPM 去噪过程均匀分配到 3 个金字塔层级(\(k_1{=}4\) 到 \(k_0{=}2\),即 1/16→1/4 原分辨率)。在每个层级 \(i\),U-Net 以该层级的编码器特征 \((\mathbf{F}_0^i, \mathbf{F}_1^i)\) 为条件去噪光流。跨层级过渡时,将当前估计光流 2× 上采样并用 DDPM 前向函数近似下一层级的输入。各层级共享 U-Net 参数,仅 flow projector 和 feature projector 独立
- 设计动机:从粗到细策略天然适合处理大位移(粗层级捕获大运动,细层级补充细节)。光流空间仅 4 通道,搜索空间远小于潜空间,去噪更高效
-
端到端联合微调 (End-to-End Joint Fine-tuning):
- 功能:将合成器和扩散模型联合优化,消除两阶段分离训练的信息断裂
- 核心思路:扩散模型输出的多尺度光流直接用于 warp 编码器特征送入合成器解码器,用光度损失监督最终合成图像质量。合成器和扩散模型同时更新梯度
- 设计动机:分离训练时合成器针对"完美"伪 GT 光流优化,但实际扩散模型输出的光流有预测误差,联合微调使两者互相适应
损失函数 / 训练策略¶
- 第一阶段(合成器训练):光度损失 \(\mathcal{L}_{photo} = \mathcal{L}_{pixel} + 0.1 \cdot \mathcal{L}_{LPIPS} + 20 \cdot \mathcal{L}_{style}\),200 epochs,batch 64
- 第二阶段(扩散训练):多尺度光流 L1 损失 \(\mathcal{L}_{flow} = \sum_i \|\tilde{f}_0^i - f_0^i\|_1 + \|\tilde{f}_1^i - f_1^i\|_1\),200 epochs,1000 去噪步
- 第三阶段(联合微调):光度损失,100 epochs,batch 32
- 推理时使用 DDIM(\(\sigma_t{=}0\))采样,仅需 6 步
实验关键数据¶
主实验¶
SNU-FILM 基准(LPIPS/FID,↓越低越好):
| 方法 | easy LPIPS | hard LPIPS | extreme LPIPS | extreme FID |
|---|---|---|---|---|
| SGM-VFI | 0.0191 | 0.0611 | 0.1182 | 41.078 |
| CBBD (扩散) | 0.0112 | 0.0467 | 0.1040 | 36.729 |
| Ours | 0.0098 | 0.0405 | 0.0839 | 27.032 |
Xiph-4K(高分辨率挑战):
| 方法 | LPIPS | FID |
|---|---|---|
| CBBD | 0.0634 | 24.621 |
| Ours | 0.0614 | 14.132 |
DAVIS + Vimeo-90k:
| 数据集 | 方法 | LPIPS | FID |
|---|---|---|---|
| DAVIS | CBBD | 0.0919 | 9.220 |
| DAVIS | Ours | 0.0753 | 7.237 |
| Vimeo | CBBD | 0.0123 | 1.961 |
| Vimeo | Ours | 0.0120 | 1.712 |
消融实验¶
| 配置 | SNUFILM-hard LPIPS | extreme LPIPS |
|---|---|---|
| Vanilla(单尺度扩散) | 0.0625 | 0.1199 |
| 层级扩散(Ours) | 0.0405 | 0.0839 |
关键发现¶
- 在所有 4 个数据集上全面超越现有最佳扩散方法 CBBD 和非扩散方法 SGM-VFI
- 在困难场景(hard/extreme)中优势尤为显著:extreme FID 27.0 vs CBBD 36.7(改善 26%)
- 推理速度 0.20s(1024×1024),与最快的非扩散方法 SGM-VFI 持平,比扩散 CBBD 快 10×
- 层级策略相比单尺度扩散在 hard 子集上 LPIPS 改善 35%
亮点与洞察¶
- 扩散目标的巧妙转移:不对潜空间扩散而对光流扩散,将搜索空间从高维潜空间缩减到 4 通道光流,实质性提升效率
- 层级从粗到细与扩散天然兼容:扩散本身就是噪声→信号的渐进过程,与光流从粗到细的估计方式完美契合
- 达成速度-质量的双重 SOTA:同时在精度和效率上超越所有基线,打破了扩散方法"质量换速度"的固有印象
局限与展望¶
- 依赖预训练光流网络提供伪 GT,光流质量上界受限于该网络
- 仅支持两帧间单帧插值,未讨论多帧插值或任意时间步插值
- 仅用 6 步推理采样,更多步数是否能进一步提升质量未充分探讨
- 可探索将层级扩散策略推广到视频生成或其他对运动敏感的任务
相关工作与启发¶
- SGM-VFI:非扩散 SOTA,统一前向/反向光流框架,高效但结果偏平滑
- CBBD:基于扩散的插帧方法,本文在其潜空间扩散基础上改为光流扩散
- FlowDiffuser / DDVM:将扩散应用于光流估计的工作,但针对的是有 GT 光流的监督设定
- 启发:层级扩散策略可推广到其他需要多尺度结构化预测的视觉任务
评分¶
⭐⭐⭐⭐ — 方法设计简洁有效,动机清晰,实验全面且令人信服。将扩散从潜空间转移到光流空间是关键洞察,速度和质量的双重提升有实际应用价值。
相关论文¶
- [CVPR 2025] EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation
- [ICCV 2025] TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
- [CVPR 2025] HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation
- [CVPR 2025] Nested Diffusion Models Using Hierarchical Latent Priors
- [CVPR 2025] DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention