REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder¶

会议: ICCV 2025 arXiv: 2503.08665 代码: 项目页面领域: 视频生成·扩散模型·视频压缩 关键词: video embedder, diffusion transformer, temporal compression, latent diffusion, video generation

一句话总结¶

提出 REGEN，用扩散 Transformer（DiT）替代传统 VAE 解码器作为视频的再生式解码器，通过"生成而非精确重建"的学习范式突破视频时序压缩瓶颈，实现最高 32× 时序压缩。

研究背景与动机¶

当前视频生成的潜扩散模型（LDM）严重依赖视频嵌入器将视频压缩到潜空间进行建模。以 MAGVIT-v2 为代表的 SOTA 视频嵌入器通常实现 8× 空间压缩但仅 4× 时序压缩，更高的时序压缩对训练和推理效率至关重要但面临根本性的瓶颈。

核心矛盾：传统编码器-解码器架构中，提高压缩率必然导致信息丢失，解码器无法从稀疏潜变量精确重建高频细节，形成"压缩-重建"的根本权衡。

关键洞察：在潜扩散建模的语境中，潜空间的核心属性应该是生成视觉上合理的内容，而非忠实还原输入视频。这一松弛的准则使得大幅提高压缩率成为可能。

基于此，REGEN 将传统的 encoder-decoder 转变为 encoder-generator 范式：编码器只需保留核心语义和结构信息，DiT 解码器负责合成逼真的细节。

方法详解¶

整体框架¶

REGEN 由两个核心模块构成（Fig. 2）：

时空视频编码器：将输入视频编码为两帧紧凑潜表示（content latent \(z_c\) + motion latent \(z_m\)）
DiT 生成式解码器：以潜变量为条件，通过扩散过程从噪声重新合成视频

关键设计 1：时空视频编码器¶

采用 MAGVIT-v2 风格的因果 3D 卷积编码器，对 \(k+1\) 帧视频编码为两帧潜特征：

\[z_c, z_m = E(x_{input})\]

\(z_c\)：内容潜帧（content latent），因果性仅含首帧信息
\(z_m\)：运动潜帧（motion latent），编码其余帧的压缩运动信息
两者均使用 8 个潜通道，空间压缩 8×，时序压缩可达 8×/16×/32×

关键设计 2：潜变量条件模块（Content-Aware PE）¶

这是 REGEN 的核心创新。传统 DiT 使用固定位置编码（PE），难以泛化到训练时未见的分辨率和宽高比。REGEN 将位置编码替换为内容感知位置编码，由编码的潜变量生成：

\[C_e(x, y, t_f | [z_c, z_m]) = M_s\left(z_c(x,y) \oplus M_t(t_f | z_m(x,y))\right)\]

其中 \(M_t\) 是 SIREN 网络，将时间坐标 \(t_f\) 映射为特征向量并受 \(z_m\) 调制；\(M_s\) 是线性投影器。生成的扩展潜变量 \(z_e\) 与 DiT 的 token embedding 和 timestep embedding 相加作为输入。

这种设计：(1) 完全移除 DiT 原始的空间/时序 PE；(2) 自然支持任意分辨率和宽高比；(3) 支持时序插值和外推。

训练目标¶

端到端联合训练编码器和 DiT 解码器，使用标准扩散去噪损失：

\[\mathcal{L}(\theta) = \|\epsilon - \epsilon_\theta(x^t_{target}, [z_c, z_m])\|^2\]

DiT 解码器配置¶

24 层 Transformer blocks，16 头，隐藏维度 2048
Patch size = 8（与空间下采样比匹配）
支持完整时空自注意力

实验¶

主实验：高压缩率重建比较（Tab. 1）¶

方法	压缩率	MCL-JCV PSNR	MCL-JCV rFVD ↓	DAVIS PSNR	DAVIS rFVD ↓
MAGVIT-v2	8×8×8	29.14	72.07	24.75	125.03
REGEN	8×8×8	32.74	29.88	29.34	89.98
MAGVIT-v2	8×8×16	26.62	185.69	21.21	417.43
REGEN	8×8×16	30.41	92.48	26.27	235.13
MAGVIT-v2	8×8×32	22.97	536.01	18.23	1080.15
REGEN	8×8×32	28.71	224.56	23.49	522.20

REGEN 在所有压缩率上全面超越 MAGVIT-v2，且优势随压缩率增加而扩大。在 32× 时序压缩下，REGEN rFVD 仅为 MAGVIT-v2 的约 50%。

基础 4× 压缩比较（Tab. 2, 512×512）¶

方法	PSNR	SSIM	rFVD ↓
OmniTokenizer	24.63	0.710	93.35
WF-VAE	31.00	0.804	55.01
VidTok	32.06	0.836	38.85
MAGVIT-v2	31.49	0.829	28.63
REGEN	32.94	0.857	22.40

即使在基础 4× 压缩下，REGEN 也超越了所有专为该设置定制的 SOTA 方法。

条件机制消融（Tab. 3）¶

方法	192×320 PSNR	384×640 PSNR	384×640 rFVD ↓
In-context 条件	25.71	23.39	441.98
Ours (内容感知 PE)	26.04	29.41	57.01

关键发现：in-context conditioning 在更高分辨率下出现严重网格状伪影（rFVD 暴涨至 442），而 REGEN 的内容感知 PE 能优雅泛化到未见分辨率。

少步与单步采样¶

DiT 解码器在单步采样下即可获得高质量重建，无需外部蒸馏。PSNR 随步数减少略有提升（减少锐化），rFVD 略有上升。这归因于编码潜变量提供了极强的条件信号。

亮点与洞察¶

范式转移："encoder-generator" 替代 "encoder-decoder"，从"精确重建"转向"合理生成"，打破压缩-重建权衡
Content-Aware PE 一举解决位置编码泛化、条件注入和任意分辨率支持三个问题
解码器支持单步推理而无需蒸馏，极大降低实际部署成本
32× 时序压缩使文本到视频生成的潜帧数减少 ~5×，大幅降低训练和推理成本

局限性¶

生成式解码引入随机性，每次解码可能产生微小差异
极高压缩下仍存在高运动区域的时序伪影
DiT 解码器的计算开销仍值得进一步优化

评分¶

新颖性: ★★★★★ — encoder-generator 范式具有开创性
技术深度: ★★★★☆ — 内容感知 PE 设计精巧，理论与实践结合好
实验质量: ★★★★★ — 多压缩率、多数据集全面对比，消融充分
写作质量: ★★★★★ — 核心洞察明确，论述逻辑清晰