跳转至

EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成

会议: CVPR 2026
arXiv: 2603.12267
代码: 项目页
领域: 视频理解 / 视频生成 / 模型压缩
关键词: video tokenizer, adaptive token, autoregressive generation, efficiency, VQ-VAE

一句话总结

提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程,让视频tokenizer按片段复杂度自适应分配token长度,在UCF-101上节省24.4%+ token同时达到SOTA生成质量。

背景与动机

自回归(AR)视频生成依赖视频tokenizer将像素压缩为离散token序列,token序列的长度直接决定下游生成的计算成本。现有视频tokenizer对所有时间块都均匀分配固定数量的token,完全不考虑内容复杂度的差异。然而视频中的信息密度分布极不均匀——静态背景、重复纹理、缓慢运动的片段包含很少的信息,而快速运动、场景切换、精细纹理的片段信息密度极高。

核心问题

统一token分配对简单片段浪费token(用了很多token但重建质量已经饱和),对复杂片段则token不够(欠表达导致重建变差)。如何让不同视频、不同片段获得最优的token数量分配?挑战有三:(1)"最优"如何定义?需要在重建质量和效率之间找帕累托最优(2)最优分配对每个视频都不同,逐视频优化太慢(3)tokenizer需要能处理不等长的token输入。

方法详解

整体框架

EVATok框架分三步:① 估计最优token分配 → ② 训练路由器预测分配 → ③ 训练自适应tokenizer执行分配。

关键设计

1. 最优Token分配估计(Optimal Token Assignment Estimation) - 对每个视频的每个时间块,尝试不同的token数量,评估"质量-成本"权衡 - 用搜索或优化算法找到整个视频的最优分配方案(在总token预算下最大化整体重建质量) - 这一步是离线的、逐视频的,计算量大但只做一次,产出的分配作为后续步骤的训练目标

2. 轻量级路由器(Lightweight Router) - 训练一个小型网络,输入视频片段的视觉特征,预测该片段应分配的最优token数量 - 路由器的训练目标:模仿步骤①估计出的最优分配 - 推理时,路由器一次前向传播即可为所有片段预测token分配,无需逐帧搜索 - 路由器本身参数量极小,推理开销可忽略

3. 自适应Tokenizer训练 - 基于路由器预测的分配方案,训练一个能处理不等长token序列的视频tokenizer - 不同时间块可以有不同数量的离散token - 编码器/解码器架构设计支持可变长度输入

4. 视频语义编码器集成 - 在tokenizer训练中集成视频语义编码器(如CLIP视频特征) - 这个高级训练recipe提升了重建的语义质量和下游AR生成的效果 - 不只是像素级重建,还保证语义级保真

损失函数/训练策略

  • Tokenizer训练:重建损失(L1/L2 + perceptual loss)+ VQ量化损失 + 语义对齐损失
  • 路由器训练:模仿最优分配的分类/回归损失
  • AR生成模型:标准自回归交叉熵损失,在EVATok产出的变长token上训练

实验关键数据

数据集 方法 FVD↓ Token节省
UCF-101 LARP (固定长度) 基线 0%
UCF-101 EVATok SOTA ≥24.4%
UCF-101 固定长度baseline 基线 0%

消融实验要点

  • 自适应 vs 固定分配:自适应在同等平均token数下FVD显著更低
  • 路由器准确度:路由器预测与真实最优分配的一致性高(>90%),说明分配是可预测的
  • 语义编码器集成:加入后FVD进一步降低,说明语义信号对token质量有帮助
  • token数量的最优分布:简单片段集中在低token区间,复杂片段分散在高token区间,分布呈长尾

亮点 / 我学到了什么

  • "先估计最优解,再训路由器模仿"的两步范式非常实用——避免了端到端训练中最优性和效率的矛盾
  • 24.4%的token节省直接意味着AR生成的24.4%计算量减少,这在视频生成的实际部署中价值巨大
  • 路由器>90%的预测准确率说明"片段复杂度"是一个对视觉特征高度可预测的量
  • 与语义编码器集成的策略表明token质量不只是像素级概念,语义层面的信号同样重要

局限性 / 可改进方向

  • 路由器本身的计算开销虽小但非零,对极端延迟敏感的场景是否可忽略?
  • 最优token分配的估计依赖离线搜索,训练集之外的新视频类型是否泛化?
  • 自适应长度是否会给AR生成模型带来训练不稳定(因为序列长度不固定)?
  • 能否推广到图像tokenizer?图像的空间区域也有复杂度差异

与相关工作的对比

  • vs LARP等固定长度视频tokenizer:EVATok在更少token下达到更好质量
  • vs TiTok/MAGVIT等先进tokenizer:EVATok的核心贡献是自适应分配策略,可作为它们的增强
  • vs TrajTok:TrajTok聚焦理解端的轨迹分组,EVATok聚焦生成端的token长度优化,互补

与我的研究方向的关联

  • 自适应token分配的框架直接可扩展到VLM的视觉token压缩——对简单图像区域分配少token
  • "路由器预测最优配置"的设计模式可复用:训练小模型预测大模型的最优超参数/配置
  • 与BiGain、TrajTok等工作形成视觉token效率的完整方法族

评分

  • 新颖性: ⭐⭐⭐⭐ — 自适应token分配不算新概念,但三步框架的系统化设计和在视频生成上的验证有价值
  • 实验充分度: ⭐⭐⭐⭐ — UCF-101验证充分,但缺少更大规模/更多数据集的验证
  • 写作质量: ⭐⭐⭐⭐ — 框架描述清晰,三步流程一目了然
  • 对我的价值: ⭐⭐⭐⭐ — 路由器+自适应分配的设计模式可直接借鉴