EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation¶

会议: CVPR 2026
arXiv: 2603.12267
代码: 项目页
领域: 视频生成
关键词: video tokenizer, adaptive tokenization, autoregressive generation, proxy reward, Q-Former

一句话总结¶

提出四阶段框架EVATok：先用proxy tokenizer估计每个视频的最优token分配方案，再训练轻量路由器一次前向预测这些分配，最终训练自适应tokenizer按内容复杂度灵活分配token数，在UCF-101上以24.4%的token节省达到SOTA生成质量。

研究背景与动机¶

自回归视频生成的核心流程是先用视频tokenizer把像素压缩成离散token序列，再用AR模型在token序列上建模。token序列的长度直接决定了下游生成的计算开销——序列越长，attention的计算量平方增长。

现有的痛点在于：几乎所有视频tokenizer对不同视频、不同时间段都分配相同数量的token。但视频中信息密度极度不均——静态背景、重复纹理的片段信息量很少，快速运动、场景切换的片段信息密度极高。这种"一刀切"的固定分配策略在简单片段上浪费了大量token（重建质量已饱和），在复杂片段上token又不够用（欠表达导致质量下降）。

核心矛盾是：自适应分配需要知道"最优分配是什么"，但（1）"最优"如何定义？需要一个可量化的质量-效率权衡指标；（2）逐视频搜索最优分配计算量太大；（3）tokenizer架构需要支持可变长度输入。之前的方法如ElasticTok用阈值启发式搜索、AdapTok用mini-batch内ILP，都是局部次优的。

EVATok的切入角度：定义一个proxy reward指标来量化单个分配方案的质量-成本权衡，用暴力搜索找到每个视频的最优分配作为监督信号，训练一个轻量级路由器来一次性预测最优分配，从而跳过搜索阶段。核心idea：把"找最优分配"转化为"分类预测任务"，用小模型的一次前向替代昂贵的逐样本搜索。

方法详解¶

整体框架¶

EVATok分为四个阶段依次执行：Stage 1 训练proxy tokenizer（能在任意token分配下重建视频）→ Stage 2 用proxy tokenizer对100k视频暴力搜索最优分配，构建(视频, 最优分配)训练集 → Stage 3 训练轻量ViT-S路由器，将最优分配预测建模为分类任务 → Stage 4 用路由器指导，从头训练最终的自适应tokenizer。

关键设计¶

Proxy Reward与最优分配定义:
- 功能：为每个视频的每种token分配方案量化其质量-成本权衡
- 核心思路：定义 \(R_{\text{proxy}} = w_q Q(\mathcal{E},x,a) - w_l L(a)\)，其中 \(Q\) 是重建质量（归一化LPIPS）、\(L(a)\) 是归一化token长度、\(w_q, w_l\) 是偏好权重。对每个视频遍历所有 \(5^4=625\) 种候选分配，选proxy reward最大的作为最优分配 \(a^*\)
- 设计动机：之前的方法缺乏对"最优"的明确定义，靠启发式搜索容易陷入局部最优。proxy reward将质量和成本统一到一个标量指标中，使最优分配变得可计算、可比较
轻量级路由器（Router）:
- 功能：一次前向传播预测输入视频的最优token分配，替代暴力搜索
- 核心思路：ViT-S架构（19.9M参数），将视频patchify后加[CLS] token，输出 \(m^T\) 个分配类别的概率。在Stage 2构建的100k样本上用交叉熵损失训练为分类任务
- 设计动机：暴力搜索每个视频需要625次前向，路由器将其压缩为一次前向。实验证明路由器预测接近暴力搜索的帕累托前沿，且能泛化到训练时未见的数据集
Q-Former风格1D可变长度Tokenizer:
- 功能：支持不同时间块使用不同数量token的编码-解码架构
- 核心思路：输入视频spatio-temporal patchify后，根据分配方案 \(a=(k_1,...,k_T)\) 初始化不同数量的1D query，通过Q-Former编码层与3D embeddings交互后VQ量化产生离散token。解码端用第一个1D token初始化3D query来重建
- 设计动机：避免了tail-token-dropping策略的两个问题——（1）被丢弃的尾部token仍然消耗计算；（2）尾部query在编码时角色模糊（不知道自己会不会被丢弃）。直接在query初始化阶段就确定长度更高效

损失函数 / 训练策略¶

总损失为 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{vqgan}} + \lambda \mathcal{L}_{\text{align}} + \gamma \mathcal{L}_{\text{entropy}}\)，其中：

\(\mathcal{L}_{\text{vqgan}}\)：L1重建 + 感知损失 + GAN对抗损失 + VQ码本损失
\(\mathcal{L}_{\text{align}}\)：decoder中间3D特征与预训练V-JEPA2-L特征的cosine similarity对齐，\(\lambda=0.7\)
\(\mathcal{L}_{\text{entropy}}\)：LFQ的entropy loss促进码本使用率，\(\gamma=0.02\)

进阶设计：最终tokenizer训练（Stage 4）额外使用VideoMAE-B作为语义判别器，将其多层特征送入可训练1D CNN头做真假判别，显著提升重建和下游生成质量。

实验关键数据¶

主实验¶

方法	参数量(Tok+Gen)	重建rFVD↓	生成gFVD↓	重建Token数	生成Token数
LARP-L-Long	173M+632M	20	57	1024	1024
AdapTok	195M+633M	36	67	1024	1024
OmniTokenizer	82M+650M	42	191	1280	1280
EVATok	145M+633M	9.7	48	774(-24.4%)	756(-26.2%)

消融实验¶

配置	rFVD↓	Token数	说明
均匀分配(Proxy Tok.)	73	1024	固定分配基线
均匀分配(Final Tok.)	63	1024	Final tokenizer更好
路由器(Proxy Tok.)	50	721(-29.6%)	路由器分配提升显著
路由器(Final Tok.)	33	721(-29.6%)	两个改进叠加效果最佳
+VideoMAE判别器	9.2	721(-29.6%)	语义判别器带来巨大提升

关键发现¶

自适应分配在相同平均token数下，质量-成本曲线全面优于固定分配：WebVid上可节省56%token、UCF上42%token达到同等rFVD
Final tokenizer显著优于Proxy tokenizer（相同训练量），说明消除variable-length tokenizer的训练-推理gap很重要
路由器在训练时未见的UCF数据集上仍然接近暴力搜索的最优前沿，泛化性好
VideoMAE语义判别器的引入使rFVD从33降至9.2，是单一最大的质量提升因子

亮点与洞察¶

"先定义最优→暴力搜索标注→训练分类器模仿"的范式非常优雅，把一个看似连续优化的问题转化为离散分类任务，既有理论上的最优性保证又高效可行。这个设计模式（用小模型预测大模型的最优配置）在其他场景下也有很强的复用价值。
避免tail-token-dropping的设计选择很有洞察——在query初始化阶段就确定长度，避免了"编码了但要丢弃"的浪费和角色模糊问题。

局限与展望¶

候选分配空间是 \(m^T\) 的指数级（本文625种），视频更长或粒度更细时搜索空间会爆炸，需要更高效的分配空间设计
路由器使用全局ViT-S且每个视频只预测一次，对于长视频中局部复杂度剧变的场景可能不够灵活
固定码本大小（8192/16384），与自适应token长度的搭配是否最优尚未探索

评分¶

新颖性: ⭐⭐⭐⭐ 四阶段框架完整，proxy reward定义优雅，路由器替代搜索的思路很好
实验充分度: ⭐⭐⭐⭐ 质量-成本曲线分析、消融实验、系统级比较都很全面
写作质量: ⭐⭐⭐⭐ 四个阶段的叙述逻辑清晰，问题定义严谨
价值: ⭐⭐⭐⭐ 24.4%~29.6%的token节省在视频生成的部署中有直接实用价值

title: >- [论文解读] EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation description: >- [CVPR 2026][video tokenizer][adaptive token] 提出EVATok四阶段框架，通过proxy reward定义最优token分配、训练轻量路由器快速预测分配、训练自适应tokenizer消除训练-推理gap，在UCF-101上以24.4%+ token节省达到SOTA视频生成质量。 tags: - CVPR 2026 - video tokenizer - adaptive token - autoregressive generation - efficiency - VQ-VAE

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation¶

会议: CVPR 2026
arXiv: 2603.12267
代码: 项目页
领域: 视频生成 / 视频Tokenizer
关键词: video tokenizer, adaptive token, proxy reward, autoregressive generation, Q-Former

一句话总结¶

提出EVATok四阶段框架，通过proxy reward最优化token分配估计、轻量路由器快速预测、自适应tokenizer消除训练-推理gap，在UCF-101上以24.4%+ token节省达到SOTA视频生成质量。

研究背景与动机¶

自回归视频生成的核心瓶颈：AR视频生成模型依赖视频tokenizer将像素压缩为离散token序列，token序列长度直接决定重建质量和下游生成的计算成本。现有tokenizer对所有时间块均匀分配固定数量token，完全不考虑内容复杂度差异。

信息密度不均匀问题：视频中信息密度分布极不均匀——静态/重复片段被过度分配token（质量已饱和），而动态/复杂布局片段token不足（欠表达导致重建劣化）。这在因果视频tokenizer中尤为严重，因为信息密度不仅跨样本变化，还沿时间维度变化。

现有自适应方法的不足：ElasticTok通过阈值搜索确定分配，但属于启发式方法，无法优化整体质量-成本权衡。AdapTok使用mini-batch ILP，分配决策依赖batch组成和固定预算约束，同样不够最优。核心缺失是：没有一个明确的"最优分配"定义和估计方法。

方法详解¶

整体框架¶

EVATok分四阶段：(1) 训练proxy tokenizer用于最优分配估计；(2) 用proxy reward搜索最优分配，构建(视频, 最优分配)数据集；(3) 训练轻量路由器进行一次前向预测最优分配；(4) 用路由器预测的分配训练最终自适应tokenizer，消除训练-推理gap。

关键设计¶

Proxy Reward与最优分配定义：
- 功能：定义一个同时度量重建质量和token成本的标量指标，用于评价特定token分配的质量-成本权衡
- 核心思路：\(R_{\text{proxy}} = w_q Q(\mathcal{E}_{\text{proxy}}, x, a) - w_l L(a)\)，其中 \(Q\) 为归一化LPIPS重建质量，\(L(a)\) 为归一化token长度，\(w_q, w_l\) 反映用户对质量vs效率的偏好
- 设计动机：将"最优分配"严格形式化为最大化proxy reward的分配 \(a^* = \arg\max_{a \in A} R_{\text{proxy}}\)，避免启发式搜索的次优性。通过遍历所有候选分配（\(5^4=625\)种）找到最优
Q-Former式1D可变长Tokenizer架构：
- 功能：实现一个能根据指定token分配编解码视频的可变长度tokenizer
- 核心思路：输入视频先patchify为3D嵌入，然后根据分配 \(a=(k_1,...,k_T)\) 初始化不同数量的1D query（通过2D池化从对应时间块的3D嵌入衍生），经Q-Former编码器层编码后向量量化为离散token。解码器用每个时间块的第一个1D token初始化3D query进行重建
- 设计动机：放弃传统tail-token-dropping策略，因为(1)被丢弃的token在编码时仍消耗计算；(2)尾部query在编码时不知道自己是否会被丢弃，角色模糊。直接在query初始化时决定token数量更高效
轻量路由器与最终Tokenizer训练：
- 功能：用ViT-S级别（19.9M参数）路由器将逐样本brute-force搜索加速为一次前向分类
- 核心思路：在100k WebVid视频上构建(视频, 最优分配)分类数据集训练路由器，将最优分配预测建模为 \(m^T\) 类分类任务。最终tokenizer从零训练并使用路由器预测的分配，而非复用proxy tokenizer
- 设计动机：proxy tokenizer训练时覆盖所有 \(m^T\) 种分配，但推理时每个视频只用一种，存在训练-推理gap。Stage 4的最终tokenizer消除了这一gap，实验证实比直接用proxy tokenizer提升显著

损失函数 / 训练策略¶

Tokenizer总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{vqgan}} + \lambda \mathcal{L}_{\text{align}} + \gamma \mathcal{L}_{\text{entropy}}\)
\(\mathcal{L}_{\text{vqgan}}\) 包含L1重建损失、感知损失、GAN对抗损失、VQ codebook损失
\(\mathcal{L}_{\text{align}}\)：与V-JEPA2-L的patch级cosine similarity对齐，\(\lambda=0.7\)
\(\mathcal{L}_{\text{entropy}}\)：codebook熵损失促进codebook利用率，\(\gamma=0.02\)
最终tokenizer可选启用VideoMAE-B语义判别器，结合表征对齐显著提升重建和下游生成质量
Codebook大小：proxy用16384，最终tokenizer用8192（公平比较）

实验关键数据¶

主实验¶

方法	Tok. Param	#rTokens	rFVD↓	#gTokens	gFVD↓ (UCF)
LARP-L-Long (632M GPT)	173M	1024	20	1024	57
AdapTok	195M	1024	36	1024	67
OmniTokenizer	82.2M	1280	42	1280	191
EVATok (633M GPT)	145M	774 (-24.4%)	9.7	756 (-26.2%)	48

K600帧预测：EVATok gFVD=4.0，比LARP(5.1)和AdapTok(11)更优，且生成token数少15.8%。

消融实验¶

配置	rFVD↓	gFVD↓
完整recipe (Uniform)	13	98
- VideoMAE判别器	65	155
- V-JEPA2对齐	18	144
- 两者都去掉	80	230

分配策略	LPIPS↓	rFVD↓	#rTokens
固定均匀 (Proxy Tok.)	0.1178	73	1024
固定均匀 (Final Tok.)	0.1056	63	1024
Router (Proxy Tok.)	0.1182	50	721(-29.6%)
Router (Final Tok.)	0.1068	33	721(-29.6%)

关键发现¶

自适应分配在相当或更好的重建质量下，可节省24-30%的token
最终tokenizer比proxy tokenizer性能更好（消除训练-推理gap的收益）
下游AR模型在自适应长度token序列上训练可获得更好的生成FVD（首次证明）
Max-proxy-reward策略在质量-成本曲线上一致优于阈值搜索和均匀分配
路由器可泛化到未见数据集（WebVid训练→UCF评估）

亮点与洞察¶

Proxy reward概念：将"最优分配"从模糊直觉严格形式化为可计算的优化目标，是核心理论贡献
训练-推理gap的显式处理：发现并解决了可变长tokenizer的一个普遍问题——训练时覆盖所有分配但推理时只用少数
分配示例与人类直觉高度一致：重复/简单/静态内容被分配更少token，非重复/复杂/动态内容更多
语义编码器（V-JEPA2对齐 + VideoMAE判别器）对视频tokenizer的双重增强效果值得关注

局限与展望¶

仅在16帧128×128的短低分辨率视频上验证，扩展到更长更高分辨率视频的效率增益有待验证
Proxy reward的权重 \(w_q, w_l\) 需要人工指定，不同应用场景的最优偏好不同
路由器分类为625个离散类别，更精细或连续的分配可能进一步提升
Codebook大小对最终tokenizer和proxy不一致（8192 vs 16384），可能影响公平性

评分¶

新颖性: ⭐⭐⭐⭐ proxy reward定义和四阶段框架设计新颖，系统性解决了最优分配问题
实验充分度: ⭐⭐⭐⭐ 多数据集验证、丰富消融、质量-成本曲线分析完善
写作质量: ⭐⭐⭐⭐ 问题动机清晰，四阶段逐步展开逻辑顺畅
价值: ⭐⭐⭐⭐ 首次证明自适应长度token序列可提升下游AR生成，对视频生成领域有实际影响

title: >- [论文解读] EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成 description: >- [CVPR 2026][video tokenizer] 提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程，让视频tokenizer按片段复杂度自适应分配token长度，在UCF-101上节省24.4%+ token同时达到SOTA生成质量。 tags: - CVPR 2026 - video tokenizer - adaptive token - autoregressive generation - efficiency - VQ-VAE

EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成¶

会议: CVPR 2026
arXiv: 2603.12267
代码: 项目页
领域: 视频理解 / 视频生成 / 模型压缩
关键词: video tokenizer, adaptive token, autoregressive generation, efficiency, VQ-VAE

一句话总结¶

提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程，让视频tokenizer按片段复杂度自适应分配token长度，在UCF-101上节省24.4%+ token同时达到SOTA生成质量。

背景与动机¶

自回归（AR）视频生成依赖视频tokenizer将像素压缩为离散token序列，token序列的长度直接决定下游生成的计算成本。现有视频tokenizer对所有时间块都均匀分配固定数量的token，完全不考虑内容复杂度的差异。然而视频中的信息密度分布极不均匀——静态背景、重复纹理、缓慢运动的片段包含很少的信息，而快速运动、场景切换、精细纹理的片段信息密度极高。

核心问题¶

统一token分配对简单片段浪费token（用了很多token但重建质量已经饱和），对复杂片段则token不够（欠表达导致重建变差）。如何让不同视频、不同片段获得最优的token数量分配？挑战有三：（1）"最优"如何定义？需要在重建质量和效率之间找帕累托最优（2）最优分配对每个视频都不同，逐视频优化太慢（3）tokenizer需要能处理不等长的token输入。

方法详解¶

整体框架¶

EVATok框架分三步：① 估计最优token分配 → ② 训练路由器预测分配 → ③ 训练自适应tokenizer执行分配。

关键设计¶

1. 最优Token分配估计（Optimal Token Assignment Estimation） - 对每个视频的每个时间块，尝试不同的token数量，评估"质量-成本"权衡 - 用搜索或优化算法找到整个视频的最优分配方案（在总token预算下最大化整体重建质量） - 这一步是离线的、逐视频的，计算量大但只做一次，产出的分配作为后续步骤的训练目标

2. 轻量级路由器（Lightweight Router） - 训练一个小型网络，输入视频片段的视觉特征，预测该片段应分配的最优token数量 - 路由器的训练目标：模仿步骤①估计出的最优分配 - 推理时，路由器一次前向传播即可为所有片段预测token分配，无需逐帧搜索 - 路由器本身参数量极小，推理开销可忽略

3. 自适应Tokenizer训练 - 基于路由器预测的分配方案，训练一个能处理不等长token序列的视频tokenizer - 不同时间块可以有不同数量的离散token - 编码器/解码器架构设计支持可变长度输入

4. 视频语义编码器集成 - 在tokenizer训练中集成视频语义编码器（如CLIP视频特征） - 这个高级训练recipe提升了重建的语义质量和下游AR生成的效果 - 不只是像素级重建，还保证语义级保真

损失函数/训练策略¶

Tokenizer训练：重建损失（L1/L2 + perceptual loss）+ VQ量化损失 + 语义对齐损失
路由器训练：模仿最优分配的分类/回归损失
AR生成模型：标准自回归交叉熵损失，在EVATok产出的变长token上训练

实验关键数据¶

数据集	方法	FVD↓	Token节省
UCF-101	LARP (固定长度)	基线	0%
UCF-101	EVATok	SOTA	≥24.4%
UCF-101	固定长度baseline	基线	0%

消融实验要点¶

自适应 vs 固定分配：自适应在同等平均token数下FVD显著更低
路由器准确度：路由器预测与真实最优分配的一致性高（>90%），说明分配是可预测的
语义编码器集成：加入后FVD进一步降低，说明语义信号对token质量有帮助
token数量的最优分布：简单片段集中在低token区间，复杂片段分散在高token区间，分布呈长尾

亮点 / 我学到了什么¶

"先估计最优解，再训路由器模仿"的两步范式非常实用——避免了端到端训练中最优性和效率的矛盾
24.4%的token节省直接意味着AR生成的24.4%计算量减少，这在视频生成的实际部署中价值巨大
路由器>90%的预测准确率说明"片段复杂度"是一个对视觉特征高度可预测的量
与语义编码器集成的策略表明token质量不只是像素级概念，语义层面的信号同样重要

局限与展望¶

路由器本身的计算开销虽小但非零，对极端延迟敏感的场景是否可忽略？
最优token分配的估计依赖离线搜索，训练集之外的新视频类型是否泛化？
自适应长度是否会给AR生成模型带来训练不稳定（因为序列长度不固定）？
能否推广到图像tokenizer？图像的空间区域也有复杂度差异

与相关工作的对比¶

vs LARP等固定长度视频tokenizer：EVATok在更少token下达到更好质量
vs TiTok/MAGVIT等先进tokenizer：EVATok的核心贡献是自适应分配策略，可作为它们的增强
vs TrajTok：TrajTok聚焦理解端的轨迹分组，EVATok聚焦生成端的token长度优化，互补

与我的研究方向的关联¶

自适应token分配的框架直接可扩展到VLM的视觉token压缩——对简单图像区域分配少token
"路由器预测最优配置"的设计模式可复用：训练小模型预测大模型的最优超参数/配置
与BiGain、TrajTok等工作形成视觉token效率的完整方法族

评分¶

新颖性: ⭐⭐⭐⭐ — 自适应token分配不算新概念，但三步框架的系统化设计和在视频生成上的验证有价值
实验充分度: ⭐⭐⭐⭐ — UCF-101验证充分，但缺少更大规模/更多数据集的验证
写作质量: ⭐⭐⭐⭐ — 框架描述清晰，三步流程一目了然
对我的价值: ⭐⭐⭐⭐ — 路由器+自适应分配的设计模式可直接借鉴

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成¶

一句话总结¶

背景与动机¶

核心问题¶

方法详解¶

整体框架¶

关键设计¶

损失函数/训练策略¶

实验关键数据¶

消融实验要点¶

亮点 / 我学到了什么¶

局限与展望¶

与相关工作的对比¶

与我的研究方向的关联¶

评分¶

相关论文¶