EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成¶

会议: CVPR 2026
arXiv: 2603.12267
代码: 项目页
领域: 视频理解 / 视频生成 / 模型压缩
关键词: video tokenizer, adaptive token, autoregressive generation, efficiency, VQ-VAE

一句话总结¶

提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程，让视频tokenizer按片段复杂度自适应分配token长度，在UCF-101上节省24.4%+ token同时达到SOTA生成质量。

背景与动机¶

自回归（AR）视频生成依赖视频tokenizer将像素压缩为离散token序列，token序列的长度直接决定下游生成的计算成本。现有视频tokenizer对所有时间块都均匀分配固定数量的token，完全不考虑内容复杂度的差异。然而视频中的信息密度分布极不均匀——静态背景、重复纹理、缓慢运动的片段包含很少的信息，而快速运动、场景切换、精细纹理的片段信息密度极高。

核心问题¶

统一token分配对简单片段浪费token（用了很多token但重建质量已经饱和），对复杂片段则token不够（欠表达导致重建变差）。如何让不同视频、不同片段获得最优的token数量分配？挑战有三：（1）"最优"如何定义？需要在重建质量和效率之间找帕累托最优（2）最优分配对每个视频都不同，逐视频优化太慢（3）tokenizer需要能处理不等长的token输入。

方法详解¶

整体框架¶

EVATok框架分三步：① 估计最优token分配 → ② 训练路由器预测分配 → ③ 训练自适应tokenizer执行分配。

关键设计¶

1. 最优Token分配估计（Optimal Token Assignment Estimation） - 对每个视频的每个时间块，尝试不同的token数量，评估"质量-成本"权衡 - 用搜索或优化算法找到整个视频的最优分配方案（在总token预算下最大化整体重建质量） - 这一步是离线的、逐视频的，计算量大但只做一次，产出的分配作为后续步骤的训练目标

2. 轻量级路由器（Lightweight Router） - 训练一个小型网络，输入视频片段的视觉特征，预测该片段应分配的最优token数量 - 路由器的训练目标：模仿步骤①估计出的最优分配 - 推理时，路由器一次前向传播即可为所有片段预测token分配，无需逐帧搜索 - 路由器本身参数量极小，推理开销可忽略

3. 自适应Tokenizer训练 - 基于路由器预测的分配方案，训练一个能处理不等长token序列的视频tokenizer - 不同时间块可以有不同数量的离散token - 编码器/解码器架构设计支持可变长度输入

4. 视频语义编码器集成 - 在tokenizer训练中集成视频语义编码器（如CLIP视频特征） - 这个高级训练recipe提升了重建的语义质量和下游AR生成的效果 - 不只是像素级重建，还保证语义级保真

损失函数/训练策略¶

Tokenizer训练：重建损失（L1/L2 + perceptual loss）+ VQ量化损失 + 语义对齐损失
路由器训练：模仿最优分配的分类/回归损失
AR生成模型：标准自回归交叉熵损失，在EVATok产出的变长token上训练

实验关键数据¶

数据集	方法	FVD↓	Token节省
UCF-101	LARP (固定长度)	基线	0%
UCF-101	EVATok	SOTA	≥24.4%
UCF-101	固定长度baseline	基线	0%

消融实验要点¶

自适应 vs 固定分配：自适应在同等平均token数下FVD显著更低
路由器准确度：路由器预测与真实最优分配的一致性高（>90%），说明分配是可预测的
语义编码器集成：加入后FVD进一步降低，说明语义信号对token质量有帮助
token数量的最优分布：简单片段集中在低token区间，复杂片段分散在高token区间，分布呈长尾

亮点 / 我学到了什么¶

"先估计最优解，再训路由器模仿"的两步范式非常实用——避免了端到端训练中最优性和效率的矛盾
24.4%的token节省直接意味着AR生成的24.4%计算量减少，这在视频生成的实际部署中价值巨大
路由器>90%的预测准确率说明"片段复杂度"是一个对视觉特征高度可预测的量
与语义编码器集成的策略表明token质量不只是像素级概念，语义层面的信号同样重要

局限性 / 可改进方向¶

路由器本身的计算开销虽小但非零，对极端延迟敏感的场景是否可忽略？
最优token分配的估计依赖离线搜索，训练集之外的新视频类型是否泛化？
自适应长度是否会给AR生成模型带来训练不稳定（因为序列长度不固定）？
能否推广到图像tokenizer？图像的空间区域也有复杂度差异

与相关工作的对比¶

vs LARP等固定长度视频tokenizer：EVATok在更少token下达到更好质量
vs TiTok/MAGVIT等先进tokenizer：EVATok的核心贡献是自适应分配策略，可作为它们的增强
vs TrajTok：TrajTok聚焦理解端的轨迹分组，EVATok聚焦生成端的token长度优化，互补

与我的研究方向的关联¶

自适应token分配的框架直接可扩展到VLM的视觉token压缩——对简单图像区域分配少token
"路由器预测最优配置"的设计模式可复用：训练小模型预测大模型的最优超参数/配置
与BiGain、TrajTok等工作形成视觉token效率的完整方法族

评分¶

新颖性: ⭐⭐⭐⭐ — 自适应token分配不算新概念，但三步框架的系统化设计和在视频生成上的验证有价值
实验充分度: ⭐⭐⭐⭐ — UCF-101验证充分，但缺少更大规模/更多数据集的验证
写作质量: ⭐⭐⭐⭐ — 框架描述清晰，三步流程一目了然
对我的价值: ⭐⭐⭐⭐ — 路由器+自适应分配的设计模式可直接借鉴