Exploring Temporally-Aware Features for Point Tracking¶
会议: CVPR 2025
arXiv: 2501.12218
代码: https://cvlab-kaist.github.io/Chrono/ (有)
领域: 视频理解
关键词: 点跟踪, 时序感知特征, DINOv2, 特征骨干网络, 时序适配器
一句话总结¶
提出 Chrono,一个为点跟踪设计的时序感知特征骨干网络,通过在 DINOv2 的 Transformer 块间插入时序适配器(2D 卷积下采样 + 1D 局部时序注意力 + 2D 卷积上采样),仅通过简单的特征匹配(soft-argmax)即可在无精炼器设定下达到 SOTA 表现。
研究背景与动机¶
当前点跟踪方法普遍采用两阶段流程:首先用简单骨干(如 ResNet)提取特征进行粗估计,然后通过迭代精炼器注入时序信息来修正误差。这种范式有两个核心问题:
-
骨干网络落后:点跟踪领域仍在用从零训练的浅层 ResNet/TSM-ResNet,而分割、检测等任务早已受益于大规模预训练骨干。DINOv2 具有强大的空间特征表达,但缺乏时序感知能力
-
精炼器开销大:精炼器(如 TAPIR、LocoTrack 中的)需要为每个查询点单独做迭代时序处理,计算量大且效率低。如果骨干本身就能捕捉时序信息,精炼器的负担可以大幅减轻
核心洞察:好的点跟踪特征需要同时满足空间辨别力(强特征表达 → DINOv2)和时序一致性(跨帧运动理解 → 时序适配器),而非将时序推理全部交给后端精炼器。
方法详解¶
整体框架¶
Chrono 基于 DINOv2(ViT-S/14 或 ViT-B/14),冻结 DINOv2 权重,在每个 Transformer 块之间插入可训练的时序适配器。特征提取后,通过简单的余弦相似度匹配 + soft-argmax 即可完成点预测,无需任何可学习的精炼层。
关键设计¶
-
时序适配器 (Temporal Adapter):
- 功能:在不破坏 DINOv2 预训练知识的前提下注入时序感知能力
- 核心思路:采用瓶颈结构——先用 2D 卷积(stride \(s=4\))空间下采样降低计算量,再用 1D 局部窗口注意力(窗口大小 \(N=13\),对应 ±6 帧)在时序维度上聚合信息,最后用 2D 卷积上采样恢复分辨率,加残差连接保留原始特征
- 设计动机:TSM-ResNet 只看相邻帧(窗口=2),时序上下文不足;Chrono 使用 6× 更长的时序窗口捕捉复杂运动动态。空间下采样不仅降低计算成本,还扩大空间感受野
-
基于相关图的点预测 (Correlation-based Point Prediction):
- 功能:无需可学习模块即可预测点轨迹
- 核心思路:对查询点 \(q=(x_q, y_q, t_q)\),使用双线性插值提取查询特征 \(\mathbf{f}_q\),计算其与每帧所有位置的余弦相似度得到相关图 \(\mathcal{C}_t\),再通过 soft-argmax(温度 \(\tau=20\),局部掩码 \(M=5\) 像素)得到亚像素级位置估计
- 设计动机:如果特征已经足够好(时序平滑 + 空间细粒度),简单的非参数化匹配就能提供高质量的初始轨迹,避免精炼器的查询依赖计算
-
全层时序适配器部署:
- 功能:在 DINOv2 的所有 12 个 Transformer 块中都插入适配器
- 核心思路:浅层块捕捉局部细节运动,深层块捕捉全局运动模式,全层部署实现多尺度运动建模
- 设计动机:消融实验表明仅在前半/后半/交替块放置适配器都不如全层部署(\(\delta_{avg}^x\) 从 61.7~65.9 提升到 68.0)
损失函数 / 训练策略¶
- 损失函数:Huber Loss(对异常值鲁棒),对遮挡点不计算损失:\(\mathcal{L}_t = (1-v_t) \cdot \mathcal{L}_{\text{Huber}}(\hat{p}_t, p_t)\)
- 训练数据:Kubric Panning-MOVi-E 合成数据集
- 优化器:AdamW,学习率 \(10^{-4}\),权重衰减 \(10^{-4}\)
- 训练规模:4 块 A100 GPU,100K 迭代,batch size 1/GPU,每 batch 采样 256 个查询点
实验关键数据¶
主实验(TAP-Vid-DAVIS Strided 模式 \(\delta_{avg}^x\))¶
| 骨干网络 | DAVIS | Kinetics | RGB-Stacking | 是否需要精炼器 |
|---|---|---|---|---|
| Chrono (ViT-B/14) | 70.1 | 68.5 | 86.0 | 否 |
| Chrono (ViT-S/14) | 68.0 | 66.8 | 84.3 | 否 |
| DINOv2 (ViT-B/14) | 54.4 | 46.6 | 46.6 | 否 |
| TSM-ResNet-18 | 49.2 | 54.5 | 67.9 | 否 |
| ResNet-18 | 53.3 | 56.3 | 73.9 | 否 |
与含精炼器的完整流水线对比¶
| 方法 | RGB-Stacking | DAVIS | 吞吐量 (pts/s) | 精炼器参数量 |
|---|---|---|---|---|
| Chrono (ViT-B/14) | 86.0 | 70.1 | 26,140 | 0M |
| TAPIR | 74.6 | 73.6 | 2,097 | 25.9M |
| Chrono + LocoTrack | 91.0 (AJ:83.2) | 80.2 (AJ:68.2) | - | - |
消融实验¶
| 配置 | DAVIS \(\delta_{avg}^x\) | 说明 |
|---|---|---|
| 1D Attention (Ours) | 68.0 | 自适应帧间相关建模 |
| 3D Convolution | 66.4 | 固定权重,灵活性差 |
| 1D Convolution | 65.9 | 固定权重 |
| All Blocks (12 adapters) | 68.0 | 多尺度运动建模 |
| Later Blocks (6 adapters) | 65.8 | 缺少局部细节 |
| Early Blocks (6 adapters) | 61.7 | 缺少全局模式 |
关键发现¶
- Chrono 比 DINOv2 在 DAVIS 上提升 +15.7%p(ViT-B),比 TSM-ResNet-18 提升 +20.9%p,证明时序适配器的巨大价值
- 无精炼器的 Chrono 在 RGB-Stacking 上甚至超过有精炼器的 TAPIR 11.4%p,且吞吐量是 TAPIR 的 12.5×
- 加上 LocoTrack 精炼器后进一步提升,超过所有 SOTA 跟踪器
亮点与洞察¶
- 简约而深刻的设计哲学:与其花大力气设计精炼器架构,不如让特征本身就具备时序感知能力。一个好的骨干 + 简单的 soft-argmax 就能接近甚至超过复杂的多阶段系统
- PCA 可视化非常有说服力:Chrono 特征在时间上更平滑、在同一物体内有更细粒度的区分,而 DINOv2 特征在时间上抖动且同一物体内表征单一
- 效率与精度的优雅平衡:时序适配器仅增加 16.2M~26.0M 参数(相对于 DINOv2 本身),推理时间约 3× DINOv2,但精度提升巨大
局限与展望¶
- 训练仅使用合成数据(Kubric),在真实数据上可能存在域差距
- 固定窗口大小 \(N=13\) 可能不适合所有运动速度的场景
- 目前只关注位置精度,遮挡预测未被深入探索
- 时序适配器的计算开销在处理超长视频时可能成为瓶颈
相关工作与启发¶
- 与 DINO-Tracker 的区别:DINO-Tracker 需要对每个视频做 1 小时的测试时优化,Chrono 是训练好后直接推理
- 适配器设计的启发:瓶颈结构 + 残差连接是从 ResNet 借鉴的,局部窗口注意力借鉴了 Longformer
- 对未来的启示:预训练视觉骨干的时序扩展是一个通用范式,不仅适用于点跟踪,也可推广到视频分割、光流等任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 将时序感知直接嵌入预训练特征骨干的思路简单但有效,观点有启发性
- 实验充分度: ⭐⭐⭐⭐⭐ 3个数据集×2种模式、与精炼器对比、多维度消融、可视化分析都很到位
- 写作质量: ⭐⭐⭐⭐ 动机清晰,从 motivation 到 method 到 experiments 逻辑流畅
- 价值: ⭐⭐⭐⭐ 证明了"好特征 > 复杂后处理"的观点,对点跟踪领域有实际指导意义
相关论文¶
- [CVPR 2025] Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
- [CVPR 2025] Learning Temporally Consistent Video Depth from Video Diffusion Priors
- [CVPR 2025] Mind the Time: Temporally-Controlled Multi-Event Video Generation
- [CVPR 2025] PoseTraj: Pose-Aware Trajectory Control in Video Diffusion
- [CVPR 2025] FADE: Frequency-Aware Diffusion Model Factorization for Video Editing