Exploring Temporally-Aware Features for Point Tracking¶

会议: CVPR 2025
arXiv: 2501.12218
代码: https://cvlab-kaist.github.io/Chrono/ (有)
领域: 视频理解
关键词: 点跟踪, 时序感知特征, DINOv2, 特征骨干网络, 时序适配器

一句话总结¶

提出 Chrono，一个为点跟踪设计的时序感知特征骨干网络，通过在 DINOv2 的 Transformer 块间插入时序适配器（2D 卷积下采样 + 1D 局部时序注意力 + 2D 卷积上采样），仅通过简单的特征匹配（soft-argmax）即可在无精炼器设定下达到 SOTA 表现。

研究背景与动机¶

当前点跟踪方法普遍采用两阶段流程：首先用简单骨干（如 ResNet）提取特征进行粗估计，然后通过迭代精炼器注入时序信息来修正误差。这种范式有两个核心问题：

骨干网络落后：点跟踪领域仍在用从零训练的浅层 ResNet/TSM-ResNet，而分割、检测等任务早已受益于大规模预训练骨干。DINOv2 具有强大的空间特征表达，但缺乏时序感知能力
精炼器开销大：精炼器（如 TAPIR、LocoTrack 中的）需要为每个查询点单独做迭代时序处理，计算量大且效率低。如果骨干本身就能捕捉时序信息，精炼器的负担可以大幅减轻

核心洞察：好的点跟踪特征需要同时满足空间辨别力（强特征表达 → DINOv2）和时序一致性（跨帧运动理解 → 时序适配器），而非将时序推理全部交给后端精炼器。

方法详解¶

整体框架¶

Chrono 基于 DINOv2（ViT-S/14 或 ViT-B/14），冻结 DINOv2 权重，在每个 Transformer 块之间插入可训练的时序适配器。特征提取后，通过简单的余弦相似度匹配 + soft-argmax 即可完成点预测，无需任何可学习的精炼层。

关键设计¶

时序适配器 (Temporal Adapter):
- 功能：在不破坏 DINOv2 预训练知识的前提下注入时序感知能力
- 核心思路：采用瓶颈结构——先用 2D 卷积（stride \(s=4\)）空间下采样降低计算量，再用 1D 局部窗口注意力（窗口大小 \(N=13\)，对应 ±6 帧）在时序维度上聚合信息，最后用 2D 卷积上采样恢复分辨率，加残差连接保留原始特征
- 设计动机：TSM-ResNet 只看相邻帧（窗口=2），时序上下文不足；Chrono 使用 6× 更长的时序窗口捕捉复杂运动动态。空间下采样不仅降低计算成本，还扩大空间感受野
基于相关图的点预测 (Correlation-based Point Prediction):
- 功能：无需可学习模块即可预测点轨迹
- 核心思路：对查询点 \(q=(x_q, y_q, t_q)\)，使用双线性插值提取查询特征 \(\mathbf{f}_q\)，计算其与每帧所有位置的余弦相似度得到相关图 \(\mathcal{C}_t\)，再通过 soft-argmax（温度 \(\tau=20\)，局部掩码 \(M=5\) 像素）得到亚像素级位置估计
- 设计动机：如果特征已经足够好（时序平滑 + 空间细粒度），简单的非参数化匹配就能提供高质量的初始轨迹，避免精炼器的查询依赖计算
全层时序适配器部署:
- 功能：在 DINOv2 的所有 12 个 Transformer 块中都插入适配器
- 核心思路：浅层块捕捉局部细节运动，深层块捕捉全局运动模式，全层部署实现多尺度运动建模
- 设计动机：消融实验表明仅在前半/后半/交替块放置适配器都不如全层部署（\(\delta_{avg}^x\) 从 61.7~65.9 提升到 68.0）

损失函数 / 训练策略¶

损失函数：Huber Loss（对异常值鲁棒），对遮挡点不计算损失：\(\mathcal{L}_t = (1-v_t) \cdot \mathcal{L}_{\text{Huber}}(\hat{p}_t, p_t)\)
训练数据：Kubric Panning-MOVi-E 合成数据集
优化器：AdamW，学习率 \(10^{-4}\)，权重衰减 \(10^{-4}\)
训练规模：4 块 A100 GPU，100K 迭代，batch size 1/GPU，每 batch 采样 256 个查询点

实验关键数据¶

主实验（TAP-Vid-DAVIS Strided 模式 \(\delta_{avg}^x\)）¶

骨干网络	DAVIS	Kinetics	RGB-Stacking	是否需要精炼器
Chrono (ViT-B/14)	70.1	68.5	86.0	否
Chrono (ViT-S/14)	68.0	66.8	84.3	否
DINOv2 (ViT-B/14)	54.4	46.6	46.6	否
TSM-ResNet-18	49.2	54.5	67.9	否
ResNet-18	53.3	56.3	73.9	否

与含精炼器的完整流水线对比¶

方法	RGB-Stacking	DAVIS	吞吐量 (pts/s)	精炼器参数量
Chrono (ViT-B/14)	86.0	70.1	26,140	0M
TAPIR	74.6	73.6	2,097	25.9M
Chrono + LocoTrack	91.0 (AJ:83.2)	80.2 (AJ:68.2)	-	-

消融实验¶

配置	DAVIS \(\delta_{avg}^x\)	说明
1D Attention (Ours)	68.0	自适应帧间相关建模
3D Convolution	66.4	固定权重，灵活性差
1D Convolution	65.9	固定权重
All Blocks (12 adapters)	68.0	多尺度运动建模
Later Blocks (6 adapters)	65.8	缺少局部细节
Early Blocks (6 adapters)	61.7	缺少全局模式

关键发现¶

Chrono 比 DINOv2 在 DAVIS 上提升 +15.7%p（ViT-B），比 TSM-ResNet-18 提升 +20.9%p，证明时序适配器的巨大价值
无精炼器的 Chrono 在 RGB-Stacking 上甚至超过有精炼器的 TAPIR 11.4%p，且吞吐量是 TAPIR 的 12.5×
加上 LocoTrack 精炼器后进一步提升，超过所有 SOTA 跟踪器

亮点与洞察¶

简约而深刻的设计哲学：与其花大力气设计精炼器架构，不如让特征本身就具备时序感知能力。一个好的骨干 + 简单的 soft-argmax 就能接近甚至超过复杂的多阶段系统
PCA 可视化非常有说服力：Chrono 特征在时间上更平滑、在同一物体内有更细粒度的区分，而 DINOv2 特征在时间上抖动且同一物体内表征单一
效率与精度的优雅平衡：时序适配器仅增加 16.2M~26.0M 参数（相对于 DINOv2 本身），推理时间约 3× DINOv2，但精度提升巨大

局限与展望¶

训练仅使用合成数据（Kubric），在真实数据上可能存在域差距
固定窗口大小 \(N=13\) 可能不适合所有运动速度的场景
目前只关注位置精度，遮挡预测未被深入探索
时序适配器的计算开销在处理超长视频时可能成为瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ 将时序感知直接嵌入预训练特征骨干的思路简单但有效，观点有启发性
实验充分度: ⭐⭐⭐⭐⭐ 3个数据集×2种模式、与精炼器对比、多维度消融、可视化分析都很到位
写作质量: ⭐⭐⭐⭐ 动机清晰，从 motivation 到 method 到 experiments 逻辑流畅
价值: ⭐⭐⭐⭐ 证明了"好特征 > 复杂后处理"的观点，对点跟踪领域有实际指导意义