跳转至

Track Everything Everywhere Fast and Robustly

会议: ECCV 2024
arXiv: 2403.17931
代码: 项目页
领域: 3D视觉

一句话总结

提出一种高效鲁棒的测试时优化像素跟踪方法,通过引入CaDeX++可逆变形网络、单目深度先验和DINOv2长期语义一致性,将训练速度提升10倍以上,同时显著提高了跟踪精度和鲁棒性。

研究背景与动机

领域现状

领域现状:OmniMotion是当前SOTA的优化式跟踪方法,但存在三大问题:训练时间过长、对随机种子敏感导致收敛不稳定、仅拟合短期光流缺乏长期关联

现有痛点

现有痛点:基于特征的方法(SIFT等)匹配稀疏;光流方法无法处理长程运动和遮挡

核心矛盾

核心矛盾:前馈方法(TAPIR、CoTracker)虽快但在无纹理场景泛化不佳

解决思路

解决思路:核心问题**:OmniMotion通过体渲染重建几何,计算代价高且在小基线视频中三角化精度低

方法详解

整体框架

将查询像素通过可优化深度图提升到3D,经CaDeX++可逆变形场映射到共享规范空间,再映射到目标帧完成跟踪。使用短期RAFT光流和长期DINOv2语义对应作为优化目标。

关键设计

CaDeX++可逆变形网络: - 将全局MLP隐码分解为局部时空特征网格(多分辨率查找),受Instant-NGP和TensoRF启发 - 用单调分段线性函数(B个控制点)替代原始仿射变换,提升单步表达力同时保持可逆性 - 网络大幅轻量化,加速训练

深度先验:用ZoeDepth单目度量深度初始化每帧可优化深度图,消除低效的NeRF体渲染过程。跟踪函数简化为:反投影→变形→投影

DINOv2长期语义对应:通过互最近邻匹配+自相似性过滤获取稀疏但可靠的长程对应,弥补短期光流的不足

损失函数

总损失 = 像素位置损失(L1) + 深度一致性损失 + 深度正则化损失

深度一致性约束变形后3D点的深度与目标帧深度图一致;深度正则化约束优化后深度不偏离ZoeDepth初始预测过远。

实验关键数据

主实验

方法 类别 AJ↑ δ_avg↑ OA↑ TC↓
CoTracker 前馈 65.1 79.0 89.4 0.93
TAPIR 前馈 59.8 72.3 87.6 -
OmniMotion 优化 51.7 67.5 85.3 0.74
Ours 优化 59.4 77.4 85.9 0.68

RGB-Stacking数据集上,本方法OA达93.6%,优于CoTracker的85.4%。

消融实验

配置 AJ↑ δ_avg↑ OA↑ TC↓
No depth 42.0 56.8 73.3 1.42
No long-term 45.6 61.3 75.5 1.32
No CaDeX++ 48.2 65.4 80.1 0.97
Full 48.6 65.7 80.1 1.14

关键发现

  • 训练速度提升10倍以上(DAVIS)、5倍(RGB-Stacking),收敛更稳定
  • 深度先验贡献最大:移除后AJ下降6.6,OA下降6.8
  • 长期语义监督显著提升轨迹精度,尤其应对频繁遮挡
  • 在无纹理合成视频上优于前馈方法,因优化方法不依赖视觉纹理特征
  • 跟踪轨迹与光流的一致性(DAG指标)显著优于CoTracker

亮点与洞察

  • 将Instant-NGP的局部表示思想引入可逆变形场,是NVP架构的重要改进
  • 用可优化深度图替代NeRF体渲染,在效率和精度上实现双赢
  • DINOv2提供的长程语义对应填补了短期光流的信息空白
  • 收敛鲁棒性远优于OmniMotion,不同随机种子结果方差大幅降低
  • 方法设计体现了"正确的归纳偏置 > 更多的优化时间"的工程智慧:深度先验提供好的初始化,DINOv2提供全局约束,CaDeX++提供高效的参数化

与CoTracker的进一步对比

CoTracker在前馈方法中效果最好,利用跨轨迹注意力实现全局感受野。但在无纹理合成视频上(RGB-Stacking),CoTracker的OA仅85.4%远低于本方法的93.6%。DAG指标(轨迹与光流不一致程度)显示本方法在car-turn场景为14.9 vs CoTracker的40.3,在plane场景为12.8 vs 32.5,说明优化方法产生的轨迹与局部光流更一致。

收敛鲁棒性方面,OmniMotion在不同随机种子下结果方差很大且可能完全发散,本方法通过深度先验初始化和DINOv2语义约束大幅降低了对初始化的敏感度。

局限与展望

  • 仍需测试时优化,无法实时使用
  • 对遮挡判断依赖深度阈值,极端场景可能失效
  • 深度先验质量影响最终结果
  • CaDeX++的分段线性逼近虽提升表达力,但控制点数B需调参

评分

  • 新颖性:⭐⭐⭐⭐
  • 有效性:⭐⭐⭐⭐⭐
  • 实用性:⭐⭐⭐⭐
  • 推荐度:⭐⭐⭐⭐

相关论文