Self-Supervised Any-Point Tracking by Contrastive Random Walks¶

会议: ECCV 2024
arXiv: 2409.16288
代码: https://ayshrv.com/gmrw (有)
领域: 视频理解（点跟踪 / 自监督学习）
关键词: Tracking Any Point, 自监督学习, 对比随机游走, 全局匹配Transformer, 循环一致性

一句话总结¶

提出 GMRW（Global Matching Random Walk），将全局匹配 Transformer 架构与对比随机游走自监督目标结合，首次在无标注的情况下实现了强劲的"任意点跟踪"（TAP）性能，并设计 label warping 数据增强来避免 Transformer 的捷径解。

研究背景与动机¶

Tracking Any Point (TAP) 是近年兴起的视频理解任务：给定视频中任意一个物理点的查询位置，预测该点在所有帧中的轨迹及可见性。不同于光流（仅相邻帧局部运动）或语义跟踪（可能匹配到同类但不同物理点），TAP 要求精确跟踪同一个物理点。

现有方法的局限： - 有监督方法（TAP-Net、PIPs、TAPIR、CoTracker）依赖合成数据的 GT 轨迹训练，标注数据有限 - 自监督光流方法（RAFT 无标注版、ARFlow）只能预测短程运动，长时间跟踪靠链式传播累积误差 - 扩散特征方法（DIFT）适合语义对应但非物理点跟踪 - 早期对比随机游走（CRW）在粗粒度 patch 上操作（7×7），空间精度极低

核心动机：利用全局匹配 Transformer（GMFlow 架构）的"全对比较"能力来定义随机游走的转移矩阵，在高分辨率（64×64 grid）上实现精确的自监督点跟踪。

方法详解¶

整体框架¶

CNN 提取每帧特征，添加位置编码
成对帧通过 6 层自注意力-交叉注意力-FFN 的全局匹配 Transformer，输出相关特征 $F_t$, $F_{t+1}$
计算转移矩阵 $A_t^{t+1} = \text{softmax}(F_t F_{t+1}^\top / \tau)$
用对比随机游走损失（循环一致性）进行自监督训练
推理时，取转移矩阵的期望坐标作为轨迹预测

关键设计¶

全局匹配转移矩阵：
- 采用 GMFlow 的 Transformer 架构进行帧间全局匹配
- 与早期 CRW（7×7 粗粒度 patch）相比，GMRW 在 64×64 分辨率上操作，空间精度大幅提升
- "全对比较"机制允许模型同时考虑大量匹配假设，产生更丰富的对比学习信号
- 转移矩阵 $A_t^{t+1}$ 直接用做随机游走的概率转移矩阵，无需额外的从粗到细匹配
Label Warping 解决捷径问题：
- 循环一致性训练的经典捷径：模型忽略视觉内容，仅基于位置编码匹配（因为位置不变，回到原位是平凡解）
- Tang et al. 提出对前向/后向循环使用不同裁剪增强，但对 Transformer 无效——Transformer 有足够的全局自注意力层"撤销"空间变换
- GMRW 的创新：不对特征做 warp，而是 warp 标签
- 对回文序列 $[T^f(I_1), T^f(I_2), T^b(I_1)]$ 使用不同空间变换 $T^f$, $T^b$
- 损失变为 $\mathcal{L}_{crw} = \mathcal{L}_{CE}(A_s, T_f^b(I))$，其中 $T_f^b(I)$ 是变换后的单位矩阵
- 模型必须在不同空间变换之间找到正确对应，无法通过位置编码"作弊"
采样步幅策略：
- 通过上采样原始图像来实现不同步幅（stride $s \in \{1, 2, 4\}$）的特征采样
- $s=1$ 时达到最高空间精度（但计算量大），$s=4$ 时更快但更粗
- 训练时用 $s=2$，评估时可灵活切换

损失函数 / 训练策略¶

对比随机游走损失（CRW）+ 可选平滑损失：

\[\mathcal{L}_{total} = \mathcal{L}_{crw} + \lambda_s \mathcal{L}_{smooth}\]

CRW 损失：最大化随机游走在回文序列中回到起点的概率 $$\mathcal{L}_{crw} = \mathcal{L}_{CE}(A_t^{t+1} A_{t+1}^t, I)$$
平滑损失：边缘感知的二阶导数正则化，促进运动场空间平滑
训练数据：Kubric 合成数据集（38,325 个视频），不使用任何标注
也在 Kinetics-400 上训练了"in the wild"版本

实验关键数据¶

主实验¶

TAPVid 基准测试（Kubric 和 DAVIS，自监督方法对比）：

方法	类型	Kubric AJ↑	Kubric δ_avg↑	DAVIS AJ↑	DAVIS δ_avg↑
CRW-C	自监督	31.4	48.1	7.7	13.5
CRW-D	自监督	35.8	52.4	23.6	38.0
DIFT-D	自监督	41.6	59.8	29.7	48.2
FlowWalk-C	自监督	49.4	66.7	35.2	51.4
ARFlow-C	自监督	52.3	68.1	35.0	51.8
GMRW-C	自监督	54.2	72.4	41.8	60.9
TAP-Net	有监督	65.4	77.7	38.4	53.1
TAPIR	有监督	84.7	92.1	61.3	73.6

GMRW 在自监督方法中全面领先，Kubric AJ 超过 FlowWalk 4.8 点，DAVIS AJ 超过 6.6 点。在 DAVIS 上甚至超越有监督的 TAP-Net（41.8 vs 38.4 AJ）。

消融实验¶

模型变体分析（Kubric + DAVIS 上的 AJ/δ_avg/OA）：

配置	Kubric AJ↑	Kubric δ_avg↑	DAVIS AJ↑	DAVIS δ_avg↑	说明
有监督 Oracle	63.7	83.2	39.1	59.6	上界
基础 CRW	25.4	39.3	10.4	19.2	无 label warping
+ Label Warping	45.3	62.2	32.1	48.9	+19.9 AJ，核心贡献
+ Smoothness	49.0	66.7	33.0	50.5	+3.7
+ Train stride s=2	47.7	65.6	34.5	52.1	略有不同
Eval stride s=4	37.8	53.8	23.5	38.4	粗步幅性能下降
Eval stride s=1	54.2	72.4	41.8	60.9	最细步幅最优
Kinetics 训练	47.5	65.0	34.6	52.6	真实视频亦可训练

关键发现¶

Label Warping 是最关键贡献：仅此一项从 AJ 25.4 → 45.3（+19.9），没有它 Transformer 直接学到捷径解
评估步幅对性能影响极大：$s=1$ vs $s=4$ 在 Kubric 上 AJ 差 16.4，精细匹配确实重要
在 Kubric 上训练可泛化到 DAVIS 真实视频：虽然训练数据是合成的，但特征对应能力迁移良好
在 Kinetics 上训练效果相近（AJ 34.6 vs Kubric 训练的 34.5 on DAVIS），说明方法不依赖合成数据
自监督 vs 有监督差距仍在：与 TAPIR（84.7 Kubric AJ）相比差距明显，但考虑到完全无标注，结果已非常可观
可见性预测通过循环一致性阈值实现：若前向-后向循环的位移误差超过 $\tau_{cyc}=3$ 像素，则标记为被遮挡

亮点与洞察¶

简洁高效的自监督方案：整个方法概念简单——全局匹配 + 随机游走 + label warping，无需复杂的多阶段训练或粗到细匹配
Label warping 极具启发性：以往对 CNN 有效的数据增强策略对 Transformer 失效，因为 Transformer 的全局感受野可以轻松"反转"空间变换。warp 标签而非特征是一个优雅的解决方案
全局匹配的双重优势：(1) 高空间精度（64×64 vs 早期 7×7），(2) 每次迭代考虑大量路径，提供更丰富的梯度信号
可见性检测无需额外模块，直接复用循环一致性检查

局限与展望¶

与有监督 SOTA（TAPIR/CoTracker）差距仍然显著，特别是在遮挡处理和长时跟踪上
仅使用单尺度匹配（GMFlow 原始设计支持双尺度），加入多尺度可能进一步提升
评估步幅 $s=1$ 的计算开销大：64×64 分辨率的全对匹配 = 4096×4096 的注意力矩阵
未探索在大规模无标注视频上训练的潜力（如用 YouTube 数据）
循环一致性天然无法处理"消失再出现"的遮挡模式

评分¶

新颖性: ⭐⭐⭐⭐ （全局匹配+CRW 的组合新颖，label warping 巧妙解决 Transformer 特有问题）
实验充分度: ⭐⭐⭐⭐ （四个 TAPVid 基准 + 多种自监督/有监督基线对比 + 完整消融）
写作质量: ⭐⭐⭐⭐ （方法描述清晰，但论文较短）
价值: ⭐⭐⭐⭐ （自监督点跟踪方向有潜力，但距实用还有距离）