跳转至

TrajTok: 学习轨迹Token实现更好的视频理解

会议: CVPR 2026
arXiv: 2602.22779
代码: 待确认
领域: 视频理解 / 模型压缩
关键词: 视频token化, 轨迹token, 视频效率, token压缩, 视频LLM

一句话总结

提出TrajTok——首个端到端可微的轨迹视频tokenizer,通过隐式时空聚类将视频编码为物体轨迹token,无需外部分割/跟踪管线,在分类、检索和长视频QA上全面超越patch-based方法。

背景与动机

视频Transformer的标准做法是将视频切成时空patch来生成token,但这种方式随视频长度线性甚至二次增长token数,冗余严重。先前的TrajViT证明了"轨迹token"(按物体轨迹分组)比patch token更优,但它依赖外部SAM+SAM2分割跟踪管线,既慢又不可微,分割粒度与下游任务脱节。

核心问题

如何设计一个端到端可微、轻量高效的轨迹tokenizer,让视频token的数量与视频时长解耦、与场景复杂度自适应?核心挑战有三:(1)外部分割模型追求像素级精度,但下游理解任务其实只需要语义级分组——如何在不牺牲理解性能的前提下大幅简化分割?(2)如何让分割粒度由下游任务目标反向驱动(比如舞蹈理解需要身体部位级,队形理解只需人物级)?(3)轨迹token的表达力如何自适应物体的运动复杂度?

方法详解

整体框架

TrajTok = 通用分割器(Universal Segmenter)+ 轨迹编码器(Trajectory Encoder),两者联合训练。输入视频 → 分割器生成软/硬分割掩码 → 编码器将掩码区域聚合为轨迹token → 送入下游Transformer。

关键设计

1. 通用分割器(Universal Segmenter) - 用ConvNeXt逐帧提取多尺度特征(1/4分辨率),先不追求像素精度 - 128个可学习query作为聚类原型,通过Perceiver层对特征做cross-attention - 对patch特征施加1D RoPE编码时空位置 - 输出softmax软分割图,空query自动丢弃 → token数随场景复杂度动态变化 - 训练损失:Dice + Focal(不用交叉熵),强调"发现所有物体区域"而非像素级精确 - 关键trick:patch特征梯度detach后再进Perceiver,防止patch特征和query之间不稳定的共适应

2. 轨迹编码器(Trajectory Encoder) - 初始嵌入:用软掩码加权聚合patch特征,保持可微 - 精细化:第二个Perceiver模块,用硬掩码做masked cross-attention,每个轨迹query只关注自己对应区域的特征 → 保证解耦 - 自适应Matryoshka token:每个轨迹可输出1/2/4个sub-token(用Fourier位置嵌入初始化保证多样性),训练时随机采样token数,推理时按计算预算调整

3. 三种应用场景 - TrajViT2:从头训练视频编码器(CLIP目标),轨迹token直接作为Transformer输入 - TrajAdapter:冻结预训练ViT,TrajTok作为特征适配器重组dense feature → 轻量probing - TrajVLM:LLaVA架构中TrajTok替代patch pooling做视觉-语言连接器

损失函数/训练策略

  • 分割损失:Dice + Focal loss(伪标签来自TrajViT管线注释的8M视频+15M图像)
  • 下游目标:CLIP对比损失(TrajViT2)/ 分类损失(TrajAdapter)/ LM损失(TrajVLM)
  • 分割器和下游任务联合训练或分割器预训练后冻结复用

实验关键数据

模型 K400 Acc↑ SSv2 Acc↑ ActivityNet vid2txt R@5↑ 推理FLOPs
ViT3D 54.2 46.3 35.6 二次增长
TrajViT 55.3 45.7 38.1 高斜率线性
TrajViT2 59.1 (+4.8) 48.7 (+4.1) 42.2 (+4.1) ≈ViViT效率
VLM连接器 LongVideoBench LVBench
PatchVLM (pool=3) 基线 基线
TrajVLM +8.8% +5.4%

消融实验要点

  • 分割器:移除Dice loss危害最大(VEQ -3.0, R@5 -2.9);梯度detach至关重要(不detach则VEQ -8.2);低分辨率(1/4原图)即够用
  • 轨迹编码器:硬掩码masked attention是核心(去掉则R@5暴跌4.7);Fourier query初始化比随机初始化重要(随机初始化下多token无增益)
  • 端到端训练使分割粒度自适应下游任务:CLIP目标驱动更细的前景分割 + 更粗的背景合并

亮点 / 我学到了什么

  • "不需要像素完美的分割"这个insight很关键——为理解任务做分割时,语义分组能力 > 边界精度
  • Matryoshka思路用在轨迹token上很巧妙:运动复杂的轨迹用4个token,简单的用1个
  • 端到端训练让分割粒度被下游任务"反向塑造",比固定管线灵活得多
  • TrajVLM在长视频QA上+8.8%说明轨迹token天然适合长视频场景(因为token数不随帧数增长)

局限性 / 可改进方向

  • ImageNet上略低于ViT3D——单物体简单场景下分割器产生的token太少
  • TrajVLM目前是小规模验证,扩展到更大LLM和更多训练数据是未来方向
  • 分割器预训练依赖TrajViT管线生成伪标签,能否完全自监督?
  • 场景切换时的轨迹连续性处理(temporal chunking)可能丢失跨段信息

与相关工作的对比

  • vs TrajViT:端到端可微 + 效率提升一个量级 + 更好的数据扩展性
  • vs TokenLearner/ToMe/RLT等token压缩方法:效率相当但精度显著更高
  • vs ViViT等高效视频Transformer:FLOPs相当但准确率高得多
  • vs patch pooling VLM连接器(Molmo/LLaVA):长视频优势巨大

与我的研究方向的关联

  • 轨迹token的"语义分组 + 自适应数量"思路可直接迁移到VLM视觉token压缩
  • 与EVATok形成互补:EVATok做自适应长度的视频生成tokenizer,TrajTok做理解端
  • 分割器设计(轻量ConvNeXt + Perceiver + 可学习query)是可复用的模块

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首个端到端可微轨迹tokenizer,范式级贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ — 三种场景验证+全面消融+扩展性实验
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,但篇幅较长
  • 对我的价值: ⭐⭐⭐⭐⭐ — 轨迹token思路对视觉token压缩研究有直接启发