Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation¶

会议: CVPR 2025
arXiv: 2412.04432
代码: GitHub
领域: 多模态VLM / 视频生成
关键词: 视频Tokenizer, 扩散模型, 视频理解与生成统一, 高斯混合模型, 大语言模型

一句话总结¶

本文提出Divot，一种利用扩散过程进行自监督视频表征学习的连续视频Tokenizer，通过让扩散模型以Tokenizer特征为条件进行去噪来训练表征，并用高斯混合模型（GMM）建模LLM输出的连续视频特征分布，实现了视频理解与生成的统一框架。

研究背景与动机¶

领域现状：多模态大语言模型在图像理解与生成的统一上取得了显著进展，但视频领域的统一相对滞后。近期先驱工作（如LWM、VILA-U）采用离散视频Tokenizer映射为token序列，便于LLM的自回归生成。

现有痛点：离散视频token虽便于生成（next-token prediction），但会显著降低多模态理解性能——连续表征更适合理解任务。然而连续表征难以用LLM建模生成，简单的MSE回归会导致LLM学到过度平均的特征，生成的视频呈现重复模式。

核心矛盾：离散表征利于生成但损害理解，连续表征利于理解但难以生成。需要一种Tokenizer同时满足两个方向的需求。

本文目标：设计连续视频Tokenizer，同时支持LLM的视频理解（作为输入）和视频生成（作为输出条件解码）。

切入角度：如果扩散模型能以Tokenizer特征为条件成功去噪，说明该Tokenizer已捕获足够的时空信息；同时该扩散模型天然可作为de-tokenizer解码视频。

核心 idea：用扩散去噪作为代理任务训练视频Tokenizer（自监督），用GMM概率建模替代确定性回归来让LLM生成连续视频特征。

方法详解¶

整体框架¶

稀疏采样帧（2fps）输入Tokenizer获得时空表征，密集采样帧（8fps）经VAE编码后加噪，训练U-Net以Tokenizer特征为条件去噪。训练完成后U-Net即为de-tokenizer。LLM端，理解通过next-word prediction输入视频token，生成通过预测GMM参数采样视频特征再由de-tokenizer解码。

关键设计¶

扩散驱动的视频Tokenizer:
- 功能：通过自监督学习获取捕获时空信息的连续视频表征
- 核心思路：Tokenizer由预训练ViT + Spatial-Temporal Transformer + Perceiver Resampler组成。训练时以Tokenizer输出的64个token作为DynamiCrafter U-Net的cross-attention条件，去噪VAE latent。去噪目标迫使Tokenizer编码足够丰富的时空信息
- 设计动机：扩散去噪要求条件信号包含细粒度的空间和时间信息才能重建视频，因此是一个天然的表征学习代理任务。Perceiver Resampler将patch级别特征压缩为固定数量的高层token，减少LLM需要预测的token数
GMM概率建模视频特征:
- 功能：让LLM有效地建模和生成连续视频特征分布
- 核心思路：LLM输出被训练为预测GMM参数（\(2kd+k\)个参数：均值、方差和混合概率），使用负对数似然（NLL）损失优化。推理时从预测的GMM分布中采样作为de-tokenizer的条件。对比了三种方案：MSE回归（过度平均）、Diffusion建模（高层特征对噪声敏感）、GMM建模（效果最好）
- 设计动机：确定性MSE回归会使LLM学到所有可能视频的平均特征，导致重复模式。概率建模允许多样性采样，GMM比扩散建模更稳定因为高层语义特征对噪声更敏感
稀疏-密集帧采样策略:
- 功能：在Tokenizer效率与视频重建质量间取得平衡
- 核心思路：Tokenizer输入稀疏帧（5帧，2fps）减少token序列长度；去噪目标使用密集帧（16帧，8fps）确保时间动态的完整学习
- 设计动机：相邻帧语义高度冗余，稀疏采样对理解足够；但生成需要密集帧的时间细节

损失函数 / 训练策略¶

Tokenizer训练：标准扩散去噪损失。LLM训练：理解用next-token prediction交叉熵，生成用GMM的NLL损失。分三阶段：Tokenizer预训练（10M视频）→ LLM预训练（视频-文本对）→ SFT（多任务）。

实验关键数据¶

主实验¶

模型	LLM大小	视频生成	EgoSchema	MVBench	ActivityNet
Video-LLaVA	7B	×	38.4	41.0	45.3
VideoChat2	7B	×	42.2	51.1	49.1
Video-LaVIT	7B	✓	-	-	-
Divot-LLM	7B	✓	43.6	52.8	50.2

消融实验（视频生成，MSR-VTT）¶

特征建模方式	FVD↓	相似度↑
MSE回归	较差	较低
Diffusion建模	中等	中等
GMM建模	最优	最高

关键发现¶

Divot-LLM在视频理解上与专用理解模型竞争力相当，同时新增了视频生成能力
GMM建模显著优于MSE回归和Diffusion建模，验证了概率建模对连续特征生成的重要性
Perceiver Resampler产生的无位置依赖的高层token比保留空间结构的patch token更容易被LLM拟合
模型支持视频故事讲述——交替生成叙述文本和对应视频片段

亮点与洞察¶

"扩散即表征学习"的思路新颖——去噪目标天然要求条件包含丰富信息，且训练后的去噪网络直接可用作解码器
GMM vs MSE vs Diffusion的对比实验很有价值：揭示了高层语义特征与底层像素/latent特征在建模策略上的根本差异
连续Tokenizer统一理解与生成的路线可能比离散路线更有前景

局限与展望¶

视频生成质量受限于代理扩散模型（DynamiCrafter）的能力
当前只用Mistral-7B，在更强LLM上的扩展效果未知
视频长度受限（2秒clip），长视频生成需要进一步研究
GMM的混合分量数k是超参，最优选择可能因任务而异

评分¶

新颖性: ⭐⭐⭐⭐ 扩散作为表征学习代理+GMM建模连续token是新颖组合
实验充分度: ⭐⭐⭐⭐ 多个理解和生成benchmark，完整建模方式对比
写作质量: ⭐⭐⭐⭐ 框架清晰，动机明确
价值: ⭐⭐⭐⭐ 为视频LLM的统一理解生成提供了有力方案