Generative Neural Video Compression via Video Diffusion Prior¶

会议: CVPR 2026 arXiv: 2512.05016 代码: 无领域: 视频理解 关键词: 视频压缩, 生成式编解码, 视频扩散模型, Flow Matching, 感知质量

一句话总结¶

提出 GNVC-VD，首个基于 DiT 视频扩散模型（Wan2.1）的生成式神经视频压缩框架，通过 flow-matching 在时空潜变量上进行序列级生成式精炼，在极低码率（<0.03 bpp）下实现感知质量 SOTA 并显著减少闪烁伪影。

研究背景与动机¶

神经视频压缩（NVC）已超越 HEVC、VVC 等传统编码标准的率失真性能。但在极低码率下，基于 MSE 的优化目标导致重建帧过度平滑、精细纹理丢失，感知质量急剧下降。

图像域的成功经验：生成式图像编解码器（基于 GAN 或扩散模型）在极低码率下可恢复高频纹理，产生视觉上令人信服的重建。

视频域的关键挑战——时序一致性： 1. 现有感知视频编解码器（GLC-Video、DiffVC）使用图像域的生成先验（如 Stable Diffusion），本质上仍是逐帧增强 2. 即使用相邻帧做条件，图像先验无法建模长程时序结构——恢复的纹理随时间漂移，产生严重的感知闪烁（perceptual flickering） 3. 闪烁在极低码率下尤为明显，因为编码信息不足以约束帧间一致性

核心 idea：用视频扩散模型（Video Diffusion Transformer, DiT）替代图像先验。视频 DiT 在大规模视频数据上训练，天然捕捉时空外观+运动的联合分布，能在序列级别保证一致性。不从纯高斯噪声开始去噪（太慢），而是从压缩后的时空潜变量出发做部分去噪精炼。

方法详解¶

整体框架¶

GNVC-VD 由两个紧耦合组件构成： 1. 条件上下文变换编解码器：在 3D VAE 潜空间中压缩时空潜变量序列 2. Flow-matching 潜变量精炼模块：利用预训练 VideoDiT（Wan2.1）对压缩后潜变量进行序列级生成式去噪

流程：输入视频 → 3D Causal VAE 编码器 → 时空潜变量 $\boldsymbol{x}_1$ → 条件变换编码压缩 → 解码得 $\boldsymbol{x}_c$ → 加部分噪声 → VideoDiT flow-matching 精炼 → 精炼潜变量 $\tilde{\boldsymbol{x}}_1$ → 3D Causal VAE 解码器 → 重建视频

关键设计¶

条件上下文变换编解码器（Contextual Latent Codec）:
做什么：在 3D VAE 的潜空间中压缩时空潜变量序列
核心思路：3D Causal VAE 编码器（来自 Wan2.1）将视频编码为序列 $\boldsymbol{x}_1 = \{l_t\}_{t=1}^{1+T/4}$，每个 $l_t \in \mathbb{R}^{H/8 \times W/8 \times 16}$。I 帧潜变量独立编码，P 帧潜变量以前一帧的解码结果为上下文条件编码（借鉴 DCVC-RT 的设计）： $$\hat{y}_t = \text{Quant}(g_a(l_t | f_{t-1})), \quad \hat{l}_t = g_s(\hat{y}_t, f_{t-1})$$
设计动机：条件编码利用时间冗余显著降低码率；在潜空间而非像素空间编码，天然利用 VAE 的压缩能力
Flow-Matching 潜变量精炼:
做什么：用预训练 VideoDiT 对压缩潜变量序列进行序列级生成式增强
核心思路：压缩潜变量 $\boldsymbol{x}_c$ 可视为原始潜变量 $\boldsymbol{x}_1$ 加量化误差 $\boldsymbol{e}$。不必从纯噪声 $\boldsymbol{x}_0$ 开始全程去噪，而是在 $\boldsymbol{x}_c$ 上加部分噪声： $$\boldsymbol{x}_{t_N} = t_N \boldsymbol{x}_c + (1-t_N)\boldsymbol{x}_0, \quad t_N = 0.7$$ 定义从 $\boldsymbol{x}_{t_N}$ 到 $\boldsymbol{x}_1$ 的流路径，目标速度场分解为： $$\boldsymbol{v}_{\tau} = \underbrace{(\boldsymbol{x}_1 - \boldsymbol{x}_0)}_{\boldsymbol{v}_{\text{pre-train}}} - \underbrace{\frac{t_N}{1-t_N}(\boldsymbol{x}_c - \boldsymbol{x}_1)}_{\Delta\boldsymbol{v}_{\text{fine}}}$$ 其中 $\boldsymbol{v}_{\text{pre-train}}$ 是预训练 DiT 已学到的速度场，$\Delta\boldsymbol{v}_{\text{fine}}$ 是需要学习的压缩错误校正项。通过 $L=5$ 步确定性 flow 积分完成精炼
设计动机：(1) 从压缩潜变量出发而非纯噪声，大幅减少去噪步数（5 步 vs 典型 50 步）；(2) 分解为预训练+校正项的形式，冻结 DiT backbone、仅训练 adapter，高效利用预训练知识；(3) 序列级去噪确保时空一致性
压缩感知条件适配器（Conditioning Adapter）:
做什么：将压缩域的上下文特征注入 VideoDiT 的中间层
核心思路：从条件编解码器提取的特征序列 $\{f_t\}$ 通过 adapter 块注入 DiT transformer 层，调制中间表示
设计动机：让生成先验感知压缩伪影的具体模式（块效应、模糊等），从而针对性修复，而非盲目生成

损失函数 / 训练策略¶

两阶段训练：

Stage I — 潜变量级对齐： $$\mathcal{L}_{\text{latent}} = R(\hat{y}) + \lambda_r \|\tilde{\boldsymbol{x}}_1 - \boldsymbol{x}_1\|_2^2 + \mathcal{L}_{\text{CFM}}$$ 其中 $\mathcal{L}_{\text{CFM}}$ 为条件 flow matching loss，训练 codec + adapter

Stage II — 像素级微调： $$\mathcal{L}_{\text{pixel}} = R(\hat{y}) + \lambda_r(\|V - \tilde{V}\|_2^2 + \lambda_{\text{lpips}}\mathcal{L}_{\text{LPIPS}} + \|\boldsymbol{x}_c - \boldsymbol{x}_1\|_2^2 + \|\tilde{\boldsymbol{x}}_1 - \boldsymbol{x}_1\|_2^2)$$

训练细节：Vimeo-90k 预训练 → 长视频微调（9帧→13帧），$t_N = 0.7$, flow 步数 $L=5$，2 × A800 GPU

实验关键数据¶

主实验¶

方法	类型	HEVC-B BD-LPIPS↓	HEVC-B BD-DISTS↓	UVG BD-LPIPS↓	UVG BD-DISTS↓	说明
VVC	传统	0.0 (anchor)	0.0	0.0	0.0	基准
DCVC-RT	神经	-20.9	15.4	-30.7	2.03	失真导向
GLC-Video	生成式	-79.1	-94.8	-60.0	-10.3	图像先验
GNVC-VD	生成式	-89.4	-94.5	-86.5	-96.1	视频先验

与传统编码器（VVC）相比，GNVC-VD 在 UVG 上 BD-Rate 节省 86.5%（LPIPS）和 96.1%（DISTS）。

方法	$E_{\text{warp}}$↓	CLIP-F↑	说明
HEVC	23.3	0.982	传统
GLC-Video	86.5	0.979	图像先验，闪烁严重
GNVC-VD	66.6	0.982	视频先验，大幅减少闪烁

消融实验¶

配置	BD-LPIPS (HEVC-B)	BD-DISTS (HEVC-B)	说明
W/o Latent Refinement	+0.181	+0.132	无扩散精炼→过度平滑
W/o Stage I Loss	+0.016	+0.021	缺少潜变量对齐→细节恢复弱
W/o Stage II Loss	+0.252	+0.217	缺少像素微调→重建质量差
GNVC-VD (完整)	0	0	最佳

关键发现¶

视频先验 vs 图像先验：GLC-Video 的 $E_{\text{warp}}$ 高达 86.5（严重闪烁），GNVC-VD 降至 66.6，闪烁显著减少
两阶段训练缺一不可：去掉 Stage I 导致潜变量与扩散流形不对齐，去掉 Stage II 影响更大（BD-LPIPS +0.252），像素域适配至关重要
GNVC-VD 在 <0.03 bpp 的极低码率下一致优于所有对比方法，包括传统编码器、神经编解码器和先前生成式方法
部分噪声注入（$t_N = 0.7$）+ 仅 5 步去噪，在保证质量的同时大幅降低计算成本

亮点与洞察¶

首个将视频扩散模型（DiT）引入视频压缩的工作，开创性地解决了图像先验导致的时序闪烁问题
Flow-matching 框架的优雅设计：将压缩误差校正分解为"预训练速度场 + 校正速度场"，冻结 backbone + 轻量 adapter
两阶段训练策略的必要性分析透彻：先对齐潜空间再微调像素，避免端到端训练的不稳定
在 <0.03 bpp 这个传统编码器"崩溃"的码率区间展现出显著优势

局限性 / 可改进方向¶

VideoDiT 推理开销较大（即使仅 5 步），实时编解码仍有差距
训练数据仅用 Vimeo-90k（较小），在更大规模多样化视频数据上训练可能进一步提升
仅在 <0.03 bpp 极低码率下验证，中高码率下的表现未报告
3D Causal VAE 来自 Wan2.1 且冻结，其潜空间的质量直接限制了上界
未与最新的视频 token 化方法（如 VideoGPT、MAGVIT-v2）对比
条件适配器的设计较简单（类似 VACE），可能有更好的注入方式

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 DiT-based 视频生成先验压缩框架，解决了图像先验闪烁的根本问题
实验充分度: ⭐⭐⭐⭐ HEVC-B/UVG/MCL-JCV 三个benchmark + 时序一致性分析 + 消融，但缺少中高码率实验
写作质量: ⭐⭐⭐⭐⭐ 动机阐述清晰，公式推导完整，图表对比直观
价值: ⭐⭐⭐⭐⭐ 为下一代视频压缩指明方向，视频扩散先验有望成为标配