Generative Neural Video Compression via Video Diffusion Prior¶
会议: CVPR 2026 arXiv: 2512.05016 代码: 无 领域: 视频理解 关键词: 视频压缩, 生成式编解码, 视频扩散模型, Flow Matching, 感知质量
一句话总结¶
提出 GNVC-VD,首个基于 DiT 视频扩散模型(Wan2.1)的生成式神经视频压缩框架,通过 flow-matching 在时空潜变量上进行序列级生成式精炼,在极低码率(<0.03 bpp)下实现感知质量 SOTA 并显著减少闪烁伪影。
研究背景与动机¶
神经视频压缩(NVC)已超越 HEVC、VVC 等传统编码标准的率失真性能。但在极低码率下,基于 MSE 的优化目标导致重建帧过度平滑、精细纹理丢失,感知质量急剧下降。
图像域的成功经验:生成式图像编解码器(基于 GAN 或扩散模型)在极低码率下可恢复高频纹理,产生视觉上令人信服的重建。
视频域的关键挑战——时序一致性: 1. 现有感知视频编解码器(GLC-Video、DiffVC)使用图像域的生成先验(如 Stable Diffusion),本质上仍是逐帧增强 2. 即使用相邻帧做条件,图像先验无法建模长程时序结构——恢复的纹理随时间漂移,产生严重的感知闪烁(perceptual flickering) 3. 闪烁在极低码率下尤为明显,因为编码信息不足以约束帧间一致性
核心 idea:用视频扩散模型(Video Diffusion Transformer, DiT)替代图像先验。视频 DiT 在大规模视频数据上训练,天然捕捉时空外观+运动的联合分布,能在序列级别保证一致性。不从纯高斯噪声开始去噪(太慢),而是从压缩后的时空潜变量出发做部分去噪精炼。
方法详解¶
整体框架¶
GNVC-VD 由两个紧耦合组件构成: 1. 条件上下文变换编解码器:在 3D VAE 潜空间中压缩时空潜变量序列 2. Flow-matching 潜变量精炼模块:利用预训练 VideoDiT(Wan2.1)对压缩后潜变量进行序列级生成式去噪
流程:输入视频 → 3D Causal VAE 编码器 → 时空潜变量 \(\boldsymbol{x}_1\) → 条件变换编码压缩 → 解码得 \(\boldsymbol{x}_c\) → 加部分噪声 → VideoDiT flow-matching 精炼 → 精炼潜变量 \(\tilde{\boldsymbol{x}}_1\) → 3D Causal VAE 解码器 → 重建视频
关键设计¶
- 条件上下文变换编解码器(Contextual Latent Codec):
- 做什么:在 3D VAE 的潜空间中压缩时空潜变量序列
- 核心思路:3D Causal VAE 编码器(来自 Wan2.1)将视频编码为序列 \(\boldsymbol{x}_1 = \{l_t\}_{t=1}^{1+T/4}\),每个 \(l_t \in \mathbb{R}^{H/8 \times W/8 \times 16}\)。I 帧潜变量独立编码,P 帧潜变量以前一帧的解码结果为上下文条件编码(借鉴 DCVC-RT 的设计): $\(\hat{y}_t = \text{Quant}(g_a(l_t | f_{t-1})), \quad \hat{l}_t = g_s(\hat{y}_t, f_{t-1})\)$
-
设计动机:条件编码利用时间冗余显著降低码率;在潜空间而非像素空间编码,天然利用 VAE 的压缩能力
-
Flow-Matching 潜变量精炼:
- 做什么:用预训练 VideoDiT 对压缩潜变量序列进行序列级生成式增强
- 核心思路:压缩潜变量 \(\boldsymbol{x}_c\) 可视为原始潜变量 \(\boldsymbol{x}_1\) 加量化误差 \(\boldsymbol{e}\)。不必从纯噪声 \(\boldsymbol{x}_0\) 开始全程去噪,而是在 \(\boldsymbol{x}_c\) 上加部分噪声: $\(\boldsymbol{x}_{t_N} = t_N \boldsymbol{x}_c + (1-t_N)\boldsymbol{x}_0, \quad t_N = 0.7\)$ 定义从 \(\boldsymbol{x}_{t_N}\) 到 \(\boldsymbol{x}_1\) 的流路径,目标速度场分解为: $\(\boldsymbol{v}_{\tau} = \underbrace{(\boldsymbol{x}_1 - \boldsymbol{x}_0)}_{\boldsymbol{v}_{\text{pre-train}}} - \underbrace{\frac{t_N}{1-t_N}(\boldsymbol{x}_c - \boldsymbol{x}_1)}_{\Delta\boldsymbol{v}_{\text{fine}}}\)$ 其中 \(\boldsymbol{v}_{\text{pre-train}}\) 是预训练 DiT 已学到的速度场,\(\Delta\boldsymbol{v}_{\text{fine}}\) 是需要学习的压缩错误校正项。通过 \(L=5\) 步确定性 flow 积分完成精炼
-
设计动机:(1) 从压缩潜变量出发而非纯噪声,大幅减少去噪步数(5 步 vs 典型 50 步);(2) 分解为预训练+校正项的形式,冻结 DiT backbone、仅训练 adapter,高效利用预训练知识;(3) 序列级去噪确保时空一致性
-
压缩感知条件适配器(Conditioning Adapter):
- 做什么:将压缩域的上下文特征注入 VideoDiT 的中间层
- 核心思路:从条件编解码器提取的特征序列 \(\{f_t\}\) 通过 adapter 块注入 DiT transformer 层,调制中间表示
- 设计动机:让生成先验感知压缩伪影的具体模式(块效应、模糊等),从而针对性修复,而非盲目生成
损失函数 / 训练策略¶
两阶段训练:
Stage I — 潜变量级对齐: $\(\mathcal{L}_{\text{latent}} = R(\hat{y}) + \lambda_r \|\tilde{\boldsymbol{x}}_1 - \boldsymbol{x}_1\|_2^2 + \mathcal{L}_{\text{CFM}}\)$ 其中 \(\mathcal{L}_{\text{CFM}}\) 为条件 flow matching loss,训练 codec + adapter
Stage II — 像素级微调: $\(\mathcal{L}_{\text{pixel}} = R(\hat{y}) + \lambda_r(\|V - \tilde{V}\|_2^2 + \lambda_{\text{lpips}}\mathcal{L}_{\text{LPIPS}} + \|\boldsymbol{x}_c - \boldsymbol{x}_1\|_2^2 + \|\tilde{\boldsymbol{x}}_1 - \boldsymbol{x}_1\|_2^2)\)$
训练细节:Vimeo-90k 预训练 → 长视频微调(9帧→13帧),\(t_N = 0.7\), flow 步数 \(L=5\),2 × A800 GPU
实验关键数据¶
主实验¶
| 方法 | 类型 | HEVC-B BD-LPIPS↓ | HEVC-B BD-DISTS↓ | UVG BD-LPIPS↓ | UVG BD-DISTS↓ | 说明 |
|---|---|---|---|---|---|---|
| VVC | 传统 | 0.0 (anchor) | 0.0 | 0.0 | 0.0 | 基准 |
| DCVC-RT | 神经 | -20.9 | 15.4 | -30.7 | 2.03 | 失真导向 |
| GLC-Video | 生成式 | -79.1 | -94.8 | -60.0 | -10.3 | 图像先验 |
| GNVC-VD | 生成式 | -89.4 | -94.5 | -86.5 | -96.1 | 视频先验 |
与传统编码器(VVC)相比,GNVC-VD 在 UVG 上 BD-Rate 节省 86.5%(LPIPS)和 96.1%(DISTS)。
| 方法 | \(E_{\text{warp}}\)↓ | CLIP-F↑ | 说明 |
|---|---|---|---|
| HEVC | 23.3 | 0.982 | 传统 |
| GLC-Video | 86.5 | 0.979 | 图像先验,闪烁严重 |
| GNVC-VD | 66.6 | 0.982 | 视频先验,大幅减少闪烁 |
消融实验¶
| 配置 | BD-LPIPS (HEVC-B) | BD-DISTS (HEVC-B) | 说明 |
|---|---|---|---|
| W/o Latent Refinement | +0.181 | +0.132 | 无扩散精炼→过度平滑 |
| W/o Stage I Loss | +0.016 | +0.021 | 缺少潜变量对齐→细节恢复弱 |
| W/o Stage II Loss | +0.252 | +0.217 | 缺少像素微调→重建质量差 |
| GNVC-VD (完整) | 0 | 0 | 最佳 |
关键发现¶
- 视频先验 vs 图像先验:GLC-Video 的 \(E_{\text{warp}}\) 高达 86.5(严重闪烁),GNVC-VD 降至 66.6,闪烁显著减少
- 两阶段训练缺一不可:去掉 Stage I 导致潜变量与扩散流形不对齐,去掉 Stage II 影响更大(BD-LPIPS +0.252),像素域适配至关重要
- GNVC-VD 在 <0.03 bpp 的极低码率下一致优于所有对比方法,包括传统编码器、神经编解码器和先前生成式方法
- 部分噪声注入(\(t_N = 0.7\))+ 仅 5 步去噪,在保证质量的同时大幅降低计算成本
亮点与洞察¶
- 首个将视频扩散模型(DiT)引入视频压缩的工作,开创性地解决了图像先验导致的时序闪烁问题
- Flow-matching 框架的优雅设计:将压缩误差校正分解为"预训练速度场 + 校正速度场",冻结 backbone + 轻量 adapter
- 两阶段训练策略的必要性分析透彻:先对齐潜空间再微调像素,避免端到端训练的不稳定
- 在 <0.03 bpp 这个传统编码器"崩溃"的码率区间展现出显著优势
局限性 / 可改进方向¶
- VideoDiT 推理开销较大(即使仅 5 步),实时编解码仍有差距
- 训练数据仅用 Vimeo-90k(较小),在更大规模多样化视频数据上训练可能进一步提升
- 仅在 <0.03 bpp 极低码率下验证,中高码率下的表现未报告
- 3D Causal VAE 来自 Wan2.1 且冻结,其潜空间的质量直接限制了上界
- 未与最新的视频 token 化方法(如 VideoGPT、MAGVIT-v2)对比
- 条件适配器的设计较简单(类似 VACE),可能有更好的注入方式
相关工作与启发¶
- DCVC 系列(DCVC-FM, DCVC-RT)代表条件编码的 SOTA,本文在其基础上加入生成精炼
- GLC-Video 是最直接的对比——同为生成式编解码器但用图像先验,本文用视频先验,从根本上解决了闪烁问题
- 对视频压缩领域的启发:下一代感知视频压缩应围绕视频原生生成先验设计,而非套用图像模型
- 对视频生成领域的启发:扩散模型不仅能"从无到有"生成视频,还能"修复"压缩损坏的视频
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个 DiT-based 视频生成先验压缩框架,解决了图像先验闪烁的根本问题
- 实验充分度: ⭐⭐⭐⭐ HEVC-B/UVG/MCL-JCV 三个benchmark + 时序一致性分析 + 消融,但缺少中高码率实验
- 写作质量: ⭐⭐⭐⭐⭐ 动机阐述清晰,公式推导完整,图表对比直观
- 价值: ⭐⭐⭐⭐⭐ 为下一代视频压缩指明方向,视频扩散先验有望成为标配