TrajTok: 学习轨迹Token实现更好的视频理解¶

会议: CVPR 2026
arXiv: 2602.22779
代码: 待确认
领域: 视频理解 / 模型压缩
关键词: 视频token化, 轨迹token, 视频效率, token压缩, 视频LLM

一句话总结¶

提出TrajTok——首个端到端可微的轨迹视频tokenizer，通过隐式时空聚类将视频编码为物体轨迹token，无需外部分割/跟踪管线，在分类、检索和长视频QA上全面超越patch-based方法。

背景与动机¶

视频Transformer的标准做法是将视频切成时空patch来生成token，但这种方式随视频长度线性甚至二次增长token数，冗余严重。先前的TrajViT证明了"轨迹token"（按物体轨迹分组）比patch token更优，但它依赖外部SAM+SAM2分割跟踪管线，既慢又不可微，分割粒度与下游任务脱节。

核心问题¶

如何设计一个端到端可微、轻量高效的轨迹tokenizer，让视频token的数量与视频时长解耦、与场景复杂度自适应？核心挑战有三：（1）外部分割模型追求像素级精度，但下游理解任务其实只需要语义级分组——如何在不牺牲理解性能的前提下大幅简化分割？（2）如何让分割粒度由下游任务目标反向驱动（比如舞蹈理解需要身体部位级，队形理解只需人物级）？（3）轨迹token的表达力如何自适应物体的运动复杂度？

方法详解¶

整体框架¶

TrajTok = 通用分割器（Universal Segmenter）+ 轨迹编码器（Trajectory Encoder），两者联合训练。输入视频 → 分割器生成软/硬分割掩码 → 编码器将掩码区域聚合为轨迹token → 送入下游Transformer。

关键设计¶

1. 通用分割器（Universal Segmenter） - 用ConvNeXt逐帧提取多尺度特征（1/4分辨率），先不追求像素精度 - 128个可学习query作为聚类原型，通过Perceiver层对特征做cross-attention - 对patch特征施加1D RoPE编码时空位置 - 输出softmax软分割图，空query自动丢弃 → token数随场景复杂度动态变化 - 训练损失：Dice + Focal（不用交叉熵），强调"发现所有物体区域"而非像素级精确 - 关键trick：patch特征梯度detach后再进Perceiver，防止patch特征和query之间不稳定的共适应

2. 轨迹编码器（Trajectory Encoder） - 初始嵌入：用软掩码加权聚合patch特征，保持可微 - 精细化：第二个Perceiver模块，用硬掩码做masked cross-attention，每个轨迹query只关注自己对应区域的特征 → 保证解耦 - 自适应Matryoshka token：每个轨迹可输出1/2/4个sub-token（用Fourier位置嵌入初始化保证多样性），训练时随机采样token数，推理时按计算预算调整

3. 三种应用场景 - TrajViT2：从头训练视频编码器（CLIP目标），轨迹token直接作为Transformer输入 - TrajAdapter：冻结预训练ViT，TrajTok作为特征适配器重组dense feature → 轻量probing - TrajVLM：LLaVA架构中TrajTok替代patch pooling做视觉-语言连接器

损失函数/训练策略¶

分割损失：Dice + Focal loss（伪标签来自TrajViT管线注释的8M视频+15M图像）
下游目标：CLIP对比损失（TrajViT2）/ 分类损失（TrajAdapter）/ LM损失（TrajVLM）
分割器和下游任务联合训练或分割器预训练后冻结复用

实验关键数据¶

模型	K400 Acc↑	SSv2 Acc↑	ActivityNet vid2txt R@5↑	推理FLOPs
ViT3D	54.2	46.3	35.6	二次增长
TrajViT	55.3	45.7	38.1	高斜率线性
TrajViT2	59.1 (+4.8)	48.7 (+4.1)	42.2 (+4.1)	≈ViViT效率

VLM连接器	LongVideoBench	LVBench
PatchVLM (pool=3)	基线	基线
TrajVLM	+8.8%	+5.4%

消融实验要点¶

分割器：移除Dice loss危害最大（VEQ -3.0, R@5 -2.9）；梯度detach至关重要（不detach则VEQ -8.2）；低分辨率（1/4原图）即够用
轨迹编码器：硬掩码masked attention是核心（去掉则R@5暴跌4.7）；Fourier query初始化比随机初始化重要（随机初始化下多token无增益）
端到端训练使分割粒度自适应下游任务：CLIP目标驱动更细的前景分割 + 更粗的背景合并

亮点 / 我学到了什么¶

"不需要像素完美的分割"这个insight很关键——为理解任务做分割时，语义分组能力 > 边界精度
Matryoshka思路用在轨迹token上很巧妙：运动复杂的轨迹用4个token，简单的用1个
端到端训练让分割粒度被下游任务"反向塑造"，比固定管线灵活得多
TrajVLM在长视频QA上+8.8%说明轨迹token天然适合长视频场景（因为token数不随帧数增长）

局限性 / 可改进方向¶

ImageNet上略低于ViT3D——单物体简单场景下分割器产生的token太少
TrajVLM目前是小规模验证，扩展到更大LLM和更多训练数据是未来方向
分割器预训练依赖TrajViT管线生成伪标签，能否完全自监督？
场景切换时的轨迹连续性处理（temporal chunking）可能丢失跨段信息

与相关工作的对比¶

vs TrajViT：端到端可微 + 效率提升一个量级 + 更好的数据扩展性
vs TokenLearner/ToMe/RLT等token压缩方法：效率相当但精度显著更高
vs ViViT等高效视频Transformer：FLOPs相当但准确率高得多
vs patch pooling VLM连接器（Molmo/LLaVA）：长视频优势巨大

与我的研究方向的关联¶

轨迹token的"语义分组 + 自适应数量"思路可直接迁移到VLM视觉token压缩
与EVATok形成互补：EVATok做自适应长度的视频生成tokenizer，TrajTok做理解端
分割器设计（轻量ConvNeXt + Perceiver + 可学习query）是可复用的模块

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个端到端可微轨迹tokenizer，范式级贡献
实验充分度: ⭐⭐⭐⭐⭐ — 三种场景验证+全面消融+扩展性实验
写作质量: ⭐⭐⭐⭐ — 结构清晰，但篇幅较长
对我的价值: ⭐⭐⭐⭐⭐ — 轨迹token思路对视觉token压缩研究有直接启发