TrajTok: Learning Trajectory Tokens Enhances Video Understanding¶

会议: CVPR2026 arXiv: 2602.22779 代码: 待确认领域: 视频分割 / 视频理解 关键词: 视频 tokenization, 轨迹 token, 端到端分割, 视频 CLIP, VLM 连接器, token 压缩, 目标轨迹

一句话总结¶

提出 TrajTok——一种端到端可微的轨迹 tokenizer，将视频像素隐式聚类为目标轨迹 token，取代外部分割+跟踪流水线；在从头训练 (TrajViT2)、特征适配 (TrajAdapter) 和视觉语言模型连接器 (TrajVLM) 三种场景下均取得显著提升，尤其在长视频 QA 上大幅超越 patch pooling。

背景与动机¶

视频 token 数量爆炸：当前视频 Transformer 通过时空 patch 进行 tokenization，token 数量随分辨率和帧数线性甚至二次增长，导致严重的内存瓶颈。
现有 token 削减方法不足：Token pruning/merging 方法（如 TokenLearner、RLT）要么需要预设 token 数而无法适应输入复杂度，要么对场景运动敏感、鲁棒性差。
TrajViT 的局限：先行工作 TrajViT 提出基于目标轨迹的 tokenization 范式，首次证明分组后 token 在所有任务上优于原始 patch token，但依赖外部 SAM+SAM2 分割跟踪流水线——速度慢、不可训练、语义粒度固定。
任务不可知的语义粒度：通用分割模型产生的轨迹粒度对下游任务未必最优（例如舞蹈分析需细粒度身体部位 vs. 编队识别需整体 token），无法根据任务自适应调整。
像素级完美分割非必需：传统分割模型大量计算用于像素级精确 mask，但高层理解任务更依赖语义分组正确性而非边界精度。
扩展性瓶颈：TrajViT 在数据规模从 1M 扩展到 8M 时性能增益急剧下降，说明固定分割管道限制了模型的可扩展性。

方法详解¶

整体框架¶

TrajTok 由两个可微分模块组成，联合训练：

Universal Segmenter：对输入视频进行隐式聚类，在单次前向传播中产生目标轨迹 mask。
Trajectory Encoder：根据 mask 聚合像素/特征，生成紧凑的轨迹 token。

输入 \(\mathbf{V} \in \mathbb{R}^{T \times H \times W \times 3}\)，输出 \(\mathbf{Z} \in \mathbb{R}^{N \times d}\)，其中 \(N\) 随场景语义复杂度动态变化。

核心设计¶

1. Universal Segmenter

逐帧特征提取：使用轻量 ConvNeXt-Tiny 提取多尺度特征图，上采样到 1/4 分辨率后求和得到密集特征 \(\mathbf{F} \in \mathbb{R}^{T \times h \times w \times d}\)。
可学习查询聚类：引入 \(N_q=128\) 个可学习查询 \(\mathbf{Q}\)，通过 Perceiver 层的交叉注意力与特征交互，对特征施加 1D RoPE 编码时空位置。
软分割：查询与特征点积后 softmax 得到软 mask \(\mathbf{M}^{\text{soft}} \in [0,1]^{N_q \times T \times h \times w}\)；空 mask 的查询被丢弃，实现动态 token 数。
梯度截断：detach 特征 \(\mathbf{F}\) 进入 Perceiver 前的梯度，防止 patch 特征与查询之间的不稳定共适应。

2. Trajectory Encoder

软聚合初始化：用软 mask 对特征加权求和得到初始轨迹 embedding \(\mathbf{z}_k^{\text{init}}\)，保证梯度回传。
硬 mask 精化：对 \(\mathbf{M}^{\text{soft}}\) 取 argmax 得到硬 mask \(\mathbf{M}^{\text{hard}}\)，用 masked cross-attention 精化 token 表示，确保解纠缠。
自适应 token 数：受 Matryoshka 表示启发，每条轨迹可发射 \(n \in \{1,2,4\}\) 个 token；多 token 用 Fourier 位置编码初始化以鼓励多样性；训练时随机采样 \(n\)，推理时根据计算预算调整。

损失函数¶

分割损失：Dice loss + Focal loss（不使用交叉熵）；Dice loss 保证发现所有目标区域，Focal loss 处理类别不平衡。
下游损失：CLIP 对比学习损失（TrajViT2），分类损失（TrajAdapter），或 VLM 自回归损失（TrajVLM）。
分割损失与下游损失联合优化（TrajViT2 设定），或预训练 segmenter 后冻结（TrajAdapter/TrajVLM 设定）。

实验关键数据¶

场景一：TrajViT2（从头训练视频编码器，CLIP 目标）¶

在 4M 视频 + 15M 图像上训练 ViT-Large 级别编码器：

模型	K400 (Top-1)	SSv2 (Top-1)	ActivityNet txt2vid R@5	VATEX vid2txt R@5
ViT3D	54.2	46.3	37.1	60.2
TokenLearner	52.9	42.4	36.4	58.8
TrajViT	55.3	45.7	38.4	61.1
TrajViT2	59.1	48.7	40.1	65.0

K400 上比 ViT3D 高 +4.9%，比 TrajViT 高 +3.8%。
检索任务上 ActivityNet vid2txt R@5 比 TrajViT 高 +4.1%。
推理 FLOPs 与最高效的 ViViT 接近，远低于 TrajViT 的外部流水线开销。

场景二：TrajAdapter（特征适配器）¶

在 VideoMAE-v2-Huge 和 V-JEPA2-Huge 冻结特征上插入 TrajTok：

方法	V-JEPA2 K400	V-JEPA2 SSv2
Linear probing	84.5	73.7
Attentive probing	85.1	74.2
TrajAdapter (4 tok/traj)	88.0	75.1

TrajAdapter 在 V-JEPA2 上将 K400 准确率从 85.1% 提高到 88.0%（+2.9%）。

消融实验¶

Segmenter 设计消融（Table 4）：

变体	VEQ (%)	STQ (%)	Retrieval R@5
默认	42.3	70.1	22.1
去 Dice loss	39.0 (↓3.3)	68.9 (↓1.2)	16.7 (↓5.4)
不 detach 梯度	34.1 (↓8.2)	59.3 (↓10.8)	18.3 (↓3.8)
去层次特征	39.3 (↓3.0)	66.2 (↓3.9)	19.2 (↓2.9)

Encoder 设计消融（Table 5）：去除硬 attention mask 导致 R@5 下降 4.7-5.1%，证明轨迹解纠缠至关重要。

亮点¶

端到端可微：首个将轨迹分割和视频 tokenization 统一为端到端可训练模块的工作，下游任务可反向传播调整分割粒度。
三场景通用：同一模块可作为 tokenizer（TrajViT2）、feature adapter（TrajAdapter）或 VLM connector（TrajVLM），展现极强通用性。
自适应语义粒度：CLIP 目标训练后分割粒度自动调整——前景物体分割更细、背景合并更多（如 Figure 3 所示）。
长视频优势突出：TrajVLM 在 LongVideoBench 上比 PatchVLM 高 +8.8%，在 LVBench 上高 +5.4%，轨迹 token 天然适合长程推理。
参数与效率优异：整个 tokenizer 仅 46M 参数（ViT-Large 的 1/7），推理 FLOPs 与最优 token merging 方法相当。

局限性 / 可改进方向¶

像素级分割精度欠佳：轻量设计 + 低分辨率输出导致小物体遗漏、背景过度合并和边界不精确，不适用于需精确 mask 的任务（如实例分割评测）。
ImageNet 性能略低：单物体简单场景下分割器产生过少 token，限制细粒度判别能力。
TrajVLM 短视频表现不一：在部分短视频 QA 上性能反而低于 patch pooling，说明轨迹 token 对简单短视频可能不如 patch 直接。
伪标签依赖：Segmenter 预训练仍然依赖 TrajViT 外部管道生成的伪标签，未完全摆脱对 SAM/SAM2 模型的依赖。
TrajVLM 规模受限：仅在 Qwen3-4B 上验证，未扩展到 70B+ 级别模型，大规模效果待验证。

与相关工作的对比¶

维度	TrajViT (前作)	TrajTok (本文)
轨迹生成	外部 SAM+SAM2 管道	端到端轻量 segmenter
分割精度	像素级精确	粗粒度语义分组
可训练性	不可微，冻结	完全可微，联合训练
任务适应	固定粒度	下游目标自适应调整
扩展性	数据增大时增益递减	持续扩展
参数开销	SAM2 本身 304M+	tokenizer 仅 46M
效率	流水线延迟高	单次前向传播

与 TokenLearner 和 RLT 等 token merging 方法对比：TrajTok 在检索和分类上均大幅领先，且推理效率相当。

评分¶

新颖性: ⭐⭐⭐⭐ — 将轨迹 tokenization 从外部管道推进到端到端可微框架，思路清晰且影响面广
实验充分度: ⭐⭐⭐⭐⭐ — 三个场景（预训练/适配/VLM）全面验证，消融充分，扩展性分析完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，motivation 层层递进，图表信息量大
价值: ⭐⭐⭐⭐⭐ — 轨迹 tokenizer 具有极强通用性，对视频理解效率和长视频推理有重要推动