TAPIP3D: Tracking Any Point in Persistent 3D Geometry¶

会议: NeurIPS 2025
arXiv: 2504.14717
代码: Project Page
领域: 3D视觉
关键词: 3D点跟踪, 特征点云, 世界坐标系, 邻域注意力, 相机消除

一句话总结¶

提出TAPIP3D，将视频表示为相机稳定化的时空3D特征点云，通过3D邻域到邻域（N2N）注意力机制在持久3D几何空间中迭代精化多帧点轨迹，显著超越现有3D点跟踪方法。

研究背景与动机¶

视频中的长期点跟踪是机器人和动作识别的重要工具。粒子级运动估计为捕捉物体姿态变化、关节运动、可变形结构提供了统一框架。然而，现有方法存在关键局限：

2D跟踪的根本问题：大多数点跟踪器在像素空间（如CoTracker系列）或像素空间+深度信息（如SpatialTracker、DELTA）中操作。但视频中大部分表观运动来自相机移动而非物体运动，在2D空间跟踪会将两者混淆，增加跟踪难度。

UVD坐标系的不足：现有3D跟踪器（SpatialTracker、DELTA）使用UVD坐标（像素坐标+深度），这是一种2.5D表示，没有真正利用3D几何结构。在大相机运动下，UVD空间中的轨迹复杂且不规则。

特征提取方式的局限：SpatialTracker用三平面（Triplane）投影来特征化3D点云，虽然速度快但损失了几何信息。DELTA简单地将深度作为额外通道叠加到2D相关图上，本质上仍是2D方法的扩展。

本文的核心洞察是：如果用深度和相机位姿将视频提升到一个世界坐标系的3D特征点云中，相机运动就被"消除"了，剩下的仅是场景中物体的真实3D运动，轨迹变得更平滑、更容易跟踪。

方法详解¶

整体框架¶

TAPIP3D输入RGB-D视频（深度可来自传感器、估计器或GT），输出查询点的3D轨迹。主要流程：（1）将每帧视频特征提升为3D特征点云；（2）可选地用相机位姿转换到世界坐标系消除相机运动；（3）通过3D N2N注意力在特征点云中提取局部3D上下文；（4）通过Transformer迭代精化轨迹估计。

关键设计¶

3D特征点云视频表示：将传统2D特征图"增强"为带3D坐标的表示——每个2D单元既存储 $C$ 维特征向量，也存储对应的 $(X,Y,Z)$ 3D坐标（由深度反投影得到）。构建多尺度特征： $\mathcal{F}_l = \{\mathbf{F}^{l,t} \in \mathbb{R}^{\frac{H}{\ell 2^{l-1}} \times \frac{W}{\ell 2^{l-1}} \times (3+C)}\}_{t=1}^T$ 关键是坐标用最近邻插值、特征用平均池化进行下采样，确保3D几何不被模糊化。
3D邻域到邻域（N2N）注意力：这是核心创新。取代了传统2D方块相关窗口，使用3D k-NN建立真正基于3D距离的邻域关系。
- Support tokens：对每个查询点，在其起始帧特征点云中找 $K$ 个3D最近邻作为"支撑"组，捕捉查询点的局部形状信息
- Context tokens：在每个时间步，用当前轨迹估计坐标 $\tau_q^t$ 在该帧特征点云中找 $K$ 个3D最近邻作为"上下文"组
- 双向交叉注意力：support组和context组之间做双向交叉注意力，再通过注意力池化压缩为每个查询每个时间步的摘要向量
- 在交叉注意力中融入3D相对偏移的位置编码，增强空间感知能力
- 对所有尺度并行执行，得到多尺度邻域信息 $\mathcal{N}_q^t$
3D轨迹更新Transformer：将N2N注意力特征与轨迹信息组合成token： $G_q^t = [\mathcal{N}_q^t, \gamma(\tau_q^t - \tau_q^{t-1}), \gamma(\tau_q^{t+1} - \tau_q^t), \gamma(\pi_t(\tau_q^t)), o_q^t, \gamma(t)]$ 其中显式加入2D投影坐标 $\pi_t(\tau_q^t)$ 帮助模型识别超出图像边界的点。使用代理token的Transformer处理时空注意力，输出位置和可见性的增量更新。
世界坐标系跟踪 vs 相机坐标系跟踪：
- TAPIP3D-camera：在相机坐标系中跟踪（不使用相机位姿）
- TAPIP3D-world：使用相机位姿将所有帧的点云变换到第一帧相机坐标系（即"世界"坐标），消除相机运动
- 两者共享同一训练权重，仅推理时坐标系不同

损失函数 / 训练策略¶

训练损失为深度自适应的位置损失+可见性交叉熵损失： $$\mathcal{L} = \sum_{q=1}^Q \sum_{t=1}^T \frac{1}{d_q^t} \|\tau_q^t - \tilde{\tau}_q^t\|_2 + \alpha_{vis} \text{CE}(o_q^t, \tilde{o}_q^t)$$

$1/d_q^t$ 的深度缩放使远处点的损失降低，避免远处深度不精确导致梯度不稳定。训练4次迭代精化，每次输出都有监督（用折扣因子 $\gamma=0.8$ 递减权重）。训练数据为Kubric MOVi-F合成数据集，8×L40S GPU训练200K迭代约4.2天。

实验关键数据¶

主实验¶

TAPVid-3D真实世界基准（使用MegaSaM估计深度和位姿）：

方法	ADT AJ↑	ADT APD↑	DriveTrack AJ↑	PStudio AJ↑	平均AJ↑
CoTracker3 + M-SaM	20.4	30.1	14.1	17.4	17.3
SpatialTracker + M-SaM	15.9	23.8	7.7	15.3	13.0
DELTA + M-SaM	21.0	29.3	14.6	17.7	17.8
TAPIP3D-camera + M-SaM	21.6	31.0	14.6	18.1	18.1
TAPIP3D-world + M-SaM	23.5	32.8	14.9	18.1	18.8

LSFOdyssey合成基准（GT Depth对比）：

方法	AJ3D↑	APD3D↑	AJ2D↑
DELTA + GT	37.7	50.1	72.4
TAPIP3D-camera + GT	68.3	83.2	76.0
TAPIP3D-world + GT	72.2	85.8	78.5

消融实验¶

配置	LSFOdyssey AJ3D↑	APD3D↑	说明
UV+D坐标系	63.4	77.0	现有方法常用
UV+log(D)坐标系	62.9	77.9	对数深度无明显帮助
XYZ(相机)坐标系	67.1	81.6	显著优于UVD
XYZ(世界)坐标系	70.7	84.1	最佳
相机坐标，无N2N注意力	59.4	72.7	基线
相机坐标，有N2N注意力	67.1	81.6	N2N提升巨大
世界坐标，无N2N注意力	62.1	75.1	世界坐标本身有帮助
世界坐标，有N2N注意力	70.7	84.1	两者叠加效果最好

关键发现¶

在有GT深度的合成数据上，TAPIP3D-world的AJ3D几乎是DELTA的两倍（72.2 vs 37.7），展示了3D特征点云表示的巨大优势
当深度质量提升（MegaSaM→GT）时，TAPIP3D的性能提升幅度远大于基线方法，说明模型能更有效利用高质量深度
3D k-NN比固定2D邻域在DexYCB-Pt上提升AJ3D从27.7到29.8
在ADT数据集（大相机运动）上，世界坐标系跟踪优势最为显著（23.5 vs 21.6）
推理速度10 FPS、仅需约2.6GB VRAM（跟踪1024查询点、32帧）

亮点与洞察¶

世界坐标系跟踪的先驱：TAPIP3D是首个能在世界坐标系（相机运动被消除）中进行3D点跟踪的方法，利用了近期深度估计和相机位姿估计的进步
3D N2N注意力设计精巧：用support组捕捉查询点局部形状、context组捕捉目标区域上下文，双向交叉注意力融合两者，有效解决匹配歧义
显存高效训练策略：通过在每次迭代后detach梯度并立即反传，显存从48GB+降至约20GB，不牺牲性能
生态友好：仅在合成数据上训练就能在真实世界基准上达到SOTA

局限与展望¶

性能受深度图质量影响显著，在极端深度变化或小型远处模糊物体的场景中可能出现深度闪烁
当缺乏高质量深度时，其2D指标可能弱于纯2D或UVD空间的跟踪器（因为2D轨迹由3D投影而来依赖几何一致性）
可通过深度补全和噪声过滤的预处理来缓解深度质量问题
随着3D视觉重建模型的进步，TAPIP3D的鲁棒性会自然提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出世界坐标系3D点跟踪，N2N注意力设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 覆盖4个基准（真实/合成、不同深度源），消融详尽
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，图示直观地对比了UVD和XYZ轨迹差异
价值: ⭐⭐⭐⭐⭐ 利用深度估计进步实现质的飞跃，为3D点跟踪建立新范式