跳转至

Generative Neural Video Compression via Video Diffusion Prior

会议: CVPR 2026 arXiv: 2512.05016 代码: 无 领域: 视频理解 关键词: 视频压缩, 生成式编解码, 视频扩散模型, Flow Matching, 感知质量

一句话总结

提出 GNVC-VD,首个基于 DiT 视频扩散模型(Wan2.1)的生成式神经视频压缩框架,通过 flow-matching 在时空潜变量上进行序列级生成式精炼,在极低码率(<0.03 bpp)下实现感知质量 SOTA 并显著减少闪烁伪影。

研究背景与动机

神经视频压缩(NVC)已超越 HEVC、VVC 等传统编码标准的率失真性能。但在极低码率下,基于 MSE 的优化目标导致重建帧过度平滑、精细纹理丢失,感知质量急剧下降。

图像域的成功经验:生成式图像编解码器(基于 GAN 或扩散模型)在极低码率下可恢复高频纹理,产生视觉上令人信服的重建。

视频域的关键挑战——时序一致性: 1. 现有感知视频编解码器(GLC-Video、DiffVC)使用图像域的生成先验(如 Stable Diffusion),本质上仍是逐帧增强 2. 即使用相邻帧做条件,图像先验无法建模长程时序结构——恢复的纹理随时间漂移,产生严重的感知闪烁(perceptual flickering) 3. 闪烁在极低码率下尤为明显,因为编码信息不足以约束帧间一致性

核心 idea:用视频扩散模型(Video Diffusion Transformer, DiT)替代图像先验。视频 DiT 在大规模视频数据上训练,天然捕捉时空外观+运动的联合分布,能在序列级别保证一致性。不从纯高斯噪声开始去噪(太慢),而是从压缩后的时空潜变量出发做部分去噪精炼。

方法详解

整体框架

GNVC-VD 由两个紧耦合组件构成: 1. 条件上下文变换编解码器:在 3D VAE 潜空间中压缩时空潜变量序列 2. Flow-matching 潜变量精炼模块:利用预训练 VideoDiT(Wan2.1)对压缩后潜变量进行序列级生成式去噪

流程:输入视频 → 3D Causal VAE 编码器 → 时空潜变量 \(\boldsymbol{x}_1\) → 条件变换编码压缩 → 解码得 \(\boldsymbol{x}_c\) → 加部分噪声 → VideoDiT flow-matching 精炼 → 精炼潜变量 \(\tilde{\boldsymbol{x}}_1\) → 3D Causal VAE 解码器 → 重建视频

关键设计

  1. 条件上下文变换编解码器(Contextual Latent Codec):
  2. 做什么:在 3D VAE 的潜空间中压缩时空潜变量序列
  3. 核心思路:3D Causal VAE 编码器(来自 Wan2.1)将视频编码为序列 \(\boldsymbol{x}_1 = \{l_t\}_{t=1}^{1+T/4}\),每个 \(l_t \in \mathbb{R}^{H/8 \times W/8 \times 16}\)。I 帧潜变量独立编码,P 帧潜变量以前一帧的解码结果为上下文条件编码(借鉴 DCVC-RT 的设计): $\(\hat{y}_t = \text{Quant}(g_a(l_t | f_{t-1})), \quad \hat{l}_t = g_s(\hat{y}_t, f_{t-1})\)$
  4. 设计动机:条件编码利用时间冗余显著降低码率;在潜空间而非像素空间编码,天然利用 VAE 的压缩能力

  5. Flow-Matching 潜变量精炼:

  6. 做什么:用预训练 VideoDiT 对压缩潜变量序列进行序列级生成式增强
  7. 核心思路:压缩潜变量 \(\boldsymbol{x}_c\) 可视为原始潜变量 \(\boldsymbol{x}_1\) 加量化误差 \(\boldsymbol{e}\)。不必从纯噪声 \(\boldsymbol{x}_0\) 开始全程去噪,而是在 \(\boldsymbol{x}_c\) 上加部分噪声: $\(\boldsymbol{x}_{t_N} = t_N \boldsymbol{x}_c + (1-t_N)\boldsymbol{x}_0, \quad t_N = 0.7\)$ 定义从 \(\boldsymbol{x}_{t_N}\)\(\boldsymbol{x}_1\) 的流路径,目标速度场分解为: $\(\boldsymbol{v}_{\tau} = \underbrace{(\boldsymbol{x}_1 - \boldsymbol{x}_0)}_{\boldsymbol{v}_{\text{pre-train}}} - \underbrace{\frac{t_N}{1-t_N}(\boldsymbol{x}_c - \boldsymbol{x}_1)}_{\Delta\boldsymbol{v}_{\text{fine}}}\)$ 其中 \(\boldsymbol{v}_{\text{pre-train}}\) 是预训练 DiT 已学到的速度场,\(\Delta\boldsymbol{v}_{\text{fine}}\) 是需要学习的压缩错误校正项。通过 \(L=5\) 步确定性 flow 积分完成精炼
  8. 设计动机:(1) 从压缩潜变量出发而非纯噪声,大幅减少去噪步数(5 步 vs 典型 50 步);(2) 分解为预训练+校正项的形式,冻结 DiT backbone、仅训练 adapter,高效利用预训练知识;(3) 序列级去噪确保时空一致性

  9. 压缩感知条件适配器(Conditioning Adapter):

  10. 做什么:将压缩域的上下文特征注入 VideoDiT 的中间层
  11. 核心思路:从条件编解码器提取的特征序列 \(\{f_t\}\) 通过 adapter 块注入 DiT transformer 层,调制中间表示
  12. 设计动机:让生成先验感知压缩伪影的具体模式(块效应、模糊等),从而针对性修复,而非盲目生成

损失函数 / 训练策略

两阶段训练

Stage I — 潜变量级对齐: $\(\mathcal{L}_{\text{latent}} = R(\hat{y}) + \lambda_r \|\tilde{\boldsymbol{x}}_1 - \boldsymbol{x}_1\|_2^2 + \mathcal{L}_{\text{CFM}}\)$ 其中 \(\mathcal{L}_{\text{CFM}}\) 为条件 flow matching loss,训练 codec + adapter

Stage II — 像素级微调: $\(\mathcal{L}_{\text{pixel}} = R(\hat{y}) + \lambda_r(\|V - \tilde{V}\|_2^2 + \lambda_{\text{lpips}}\mathcal{L}_{\text{LPIPS}} + \|\boldsymbol{x}_c - \boldsymbol{x}_1\|_2^2 + \|\tilde{\boldsymbol{x}}_1 - \boldsymbol{x}_1\|_2^2)\)$

训练细节:Vimeo-90k 预训练 → 长视频微调(9帧→13帧),\(t_N = 0.7\), flow 步数 \(L=5\),2 × A800 GPU

实验关键数据

主实验

方法 类型 HEVC-B BD-LPIPS↓ HEVC-B BD-DISTS↓ UVG BD-LPIPS↓ UVG BD-DISTS↓ 说明
VVC 传统 0.0 (anchor) 0.0 0.0 0.0 基准
DCVC-RT 神经 -20.9 15.4 -30.7 2.03 失真导向
GLC-Video 生成式 -79.1 -94.8 -60.0 -10.3 图像先验
GNVC-VD 生成式 -89.4 -94.5 -86.5 -96.1 视频先验

与传统编码器(VVC)相比,GNVC-VD 在 UVG 上 BD-Rate 节省 86.5%(LPIPS)和 96.1%(DISTS)。

方法 \(E_{\text{warp}}\) CLIP-F↑ 说明
HEVC 23.3 0.982 传统
GLC-Video 86.5 0.979 图像先验,闪烁严重
GNVC-VD 66.6 0.982 视频先验,大幅减少闪烁

消融实验

配置 BD-LPIPS (HEVC-B) BD-DISTS (HEVC-B) 说明
W/o Latent Refinement +0.181 +0.132 无扩散精炼→过度平滑
W/o Stage I Loss +0.016 +0.021 缺少潜变量对齐→细节恢复弱
W/o Stage II Loss +0.252 +0.217 缺少像素微调→重建质量差
GNVC-VD (完整) 0 0 最佳

关键发现

  • 视频先验 vs 图像先验:GLC-Video 的 \(E_{\text{warp}}\) 高达 86.5(严重闪烁),GNVC-VD 降至 66.6,闪烁显著减少
  • 两阶段训练缺一不可:去掉 Stage I 导致潜变量与扩散流形不对齐,去掉 Stage II 影响更大(BD-LPIPS +0.252),像素域适配至关重要
  • GNVC-VD 在 <0.03 bpp 的极低码率下一致优于所有对比方法,包括传统编码器、神经编解码器和先前生成式方法
  • 部分噪声注入(\(t_N = 0.7\))+ 仅 5 步去噪,在保证质量的同时大幅降低计算成本

亮点与洞察

  • 首个将视频扩散模型(DiT)引入视频压缩的工作,开创性地解决了图像先验导致的时序闪烁问题
  • Flow-matching 框架的优雅设计:将压缩误差校正分解为"预训练速度场 + 校正速度场",冻结 backbone + 轻量 adapter
  • 两阶段训练策略的必要性分析透彻:先对齐潜空间再微调像素,避免端到端训练的不稳定
  • 在 <0.03 bpp 这个传统编码器"崩溃"的码率区间展现出显著优势

局限性 / 可改进方向

  • VideoDiT 推理开销较大(即使仅 5 步),实时编解码仍有差距
  • 训练数据仅用 Vimeo-90k(较小),在更大规模多样化视频数据上训练可能进一步提升
  • 仅在 <0.03 bpp 极低码率下验证,中高码率下的表现未报告
  • 3D Causal VAE 来自 Wan2.1 且冻结,其潜空间的质量直接限制了上界
  • 未与最新的视频 token 化方法(如 VideoGPT、MAGVIT-v2)对比
  • 条件适配器的设计较简单(类似 VACE),可能有更好的注入方式

相关工作与启发

  • DCVC 系列(DCVC-FM, DCVC-RT)代表条件编码的 SOTA,本文在其基础上加入生成精炼
  • GLC-Video 是最直接的对比——同为生成式编解码器但用图像先验,本文用视频先验,从根本上解决了闪烁问题
  • 对视频压缩领域的启发:下一代感知视频压缩应围绕视频原生生成先验设计,而非套用图像模型
  • 对视频生成领域的启发:扩散模型不仅能"从无到有"生成视频,还能"修复"压缩损坏的视频

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个 DiT-based 视频生成先验压缩框架,解决了图像先验闪烁的根本问题
  • 实验充分度: ⭐⭐⭐⭐ HEVC-B/UVG/MCL-JCV 三个benchmark + 时序一致性分析 + 消融,但缺少中高码率实验
  • 写作质量: ⭐⭐⭐⭐⭐ 动机阐述清晰,公式推导完整,图表对比直观
  • 价值: ⭐⭐⭐⭐⭐ 为下一代视频压缩指明方向,视频扩散先验有望成为标配