Real-World Point Tracking with Verifier-Guided Pseudo-Labeling¶
会议: CVPR 2026
arXiv: 2603.12217
代码: kuis-ai.github.io/track_on_r
领域: 视频理解 / 点跟踪
关键词: 点跟踪, 伪标签, Verifier, 多教师集成, 真实世界微调
一句话总结¶
提出一个可学习的Verifier元模型,通过逐帧评估多个预训练tracker预测的可靠性来生成高质量伪标签,实现合成数据到真实世界的高效域适应,在四个真实世界点跟踪基准上达到SOTA。
背景与动机¶
长程点跟踪模型(如CoTracker、TAPIR、Track-On)通常在合成数据(TAP-Vid Kubric)上训练,但在真实视频中因外观、光照、遮挡模式差异导致性能下降。自训练(self-training)用伪标签在真实视频上微调是一条路,但核心问题是:不同tracker在不同帧、不同场景下表现差异极大,没有一个tracker在所有情况下都可靠。随机选择教师模型或使用固定融合策略生成的伪标签质量不稳定,会传播系统性误差。作者做了oracle实验发现:如果每帧都能选到最佳tracker,性能可以大幅提升,说明存在巨大的改进空间。
核心问题¶
如何自动判断多个tracker在每一帧的可靠程度,从而选取最准确的预测作为伪标签,使真实世界微调获得更干净的监督信号?
方法详解¶
Verifier不是一个tracker,它是一个"给tracker打分"的元模型。训练在合成数据上完成(有GT可以监督),但学到的"判断可靠性"的能力可以迁移到真实世界。
整体框架¶
给定视频和查询点,6个预训练tracker(Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3)各生成一条候选轨迹。Verifier在每帧对这些候选评估可靠性分数,选分数最高的候选作为该帧的伪标签。这些帧级最优预测拼接成完整伪标签轨迹,用于微调学生模型Track-On2。
关键设计¶
-
Verifier训练策略: 在合成数据K-EPIC上训练。通过对真实GT轨迹施加随机扰动(漂移、跳变、遮挡、身份切换等6类,位移1~128像素)生成候选轨迹,用软对比学习目标训练——距离GT越近的候选应获得越高分数。这种"造假→识假"方式让Verifier学会识别可靠预测的视觉一致性线索。
-
局部化特征提取+Candidate Transformer: Verifier不做全局推理,而是在每个候选位置提取局部特征(通过可变形注意力),与查询点特征比较。Candidate Transformer包含受限交叉注意力(每帧的查询只注意当前帧的候选)+ 时间自注意力(跨帧传播上下文),最终输出温度缩放的softmax可靠性分布。
-
推理时集成: Verifier还可以在测试时直接作为即插即用的集成模块使用——不用微调,只需将多个tracker的预测经Verifier选取最优,已能超越任何单一tracker。
损失函数 / 训练策略¶
- Verifier: 交叉熵损失,目标是软化后的距离排名分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\),遮挡帧被mask
- 微调: 使用合成数据(有GT)和真实数据(Verifier伪标签)混合训练,逐渐增大真实数据权重。AdamW,lr 3e-5,48帧clips,256查询点
实验关键数据¶
| 数据集 | 指标 | Track-On-R (本文) | Track-On2 (基线) | 最强竞争者 |
|---|---|---|---|---|
| EgoPoints | δ_avg | 67.3 | 61.7 | 62.0 (AllTracker) |
| RoboTAP | AJ | 70.9 | 68.1 | 68.8 (AllTracker) |
| Kinetics | AJ | 57.8 | 55.3 | 57.3 (BootsTAPNext) |
| DAVIS | AJ | 68.1 | 67.0 | 65.2 (BootsTAPNext) |
仅用~5K真实视频即可达到甚至超越使用百万级真实视频的BootsTAPIR/BootsTAPNext。
消融实验要点¶
- 增加教师数量单调提升Verifier性能(即使加入弱教师也不会拉低Verifier,但会降低随机选择baseline)
- Mix+Schedule训练策略最优,纯真实数据微调也已很强
- 仅用~3K视频(TAO)即可获得大部分适应收益
- Verifier显著超越非学习集成策略(几何中位数、一致性投票、Kalman滤波等)
- 真实世界微调不会损害合成基准性能,反而在PointOdyssey上δ_avg提升+8.3
亮点¶
- Verifier作为元模型的思路非常巧妙——不做跟踪本身,而是学习"谁跟得好",把多个tracker的互补性转化为优势
- 对比oracle上界的分析清晰展示了自适应选择的巨大潜力(Fig.2非常有说服力)
- 训练时的轨迹扰动策略设计精巧(6种扰动模式覆盖了真实tracker的各种失败模式),且完全在合成数据上完成,零真实标注需求
- 数据效率极高:~3K视频即可接近最佳性能,远少于BootsTAPIR等的百万级规模
局限性 / 可改进方向¶
- Verifier的上界受限于教师tracker——如果所有教师都在某帧失败,Verifier也无能为力
- 微调效果依赖真实视频数据的质量和多样性
- 当前仅验证了点跟踪任务,Verifier思路是否能推广到光流、VOS等需要进一步探索
- 推理时使用6个教师tracker的计算开销较大
与相关工作的对比¶
- CoTracker3: 使用随机教师伪标签策略,在Kinetics上AJ 55.8 vs 本文57.8,核心差距在于伪标签质量
- BootsTAPIR/BootsTAPNext: 大规模学生-教师蒸馏方案,需要百万级真实视频,而本文仅需~5K视频即可超越
- AllTracker: 利用额外光流标注数据,在EgoPoints上62.0 vs 本文67.3,说明Verifier引导的伪标签比真实光流标注更有效
启发与关联¶
- Verifier思路可迁移到任何需要多模型融合/伪标签生成的场景——不是平均或投票,而是学习"谁在这一刻最可信"
- 与 verifier_pseudo_label_open_world idea 直接相关:这篇论文提供了Verifier用于伪标签选择的完整方法论
- 可以考虑将Verifier思路用于目标检测的多教师知识蒸馏——逐样本、逐框选择最可靠的教师
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Verifier元模型的设计思路新颖且优雅,将可靠性估计从启发式提升到可学习的paradigm
- 实验充分度: ⭐⭐⭐⭐⭐ 4个真实世界基准+2个合成基准,多维度消融,对比非学习集成策略和oracle上界
- 写作质量: ⭐⭐⭐⭐⭐ 动机分析(oracle gap)极有说服力,方法描述清晰,图示优秀
- 价值: ⭐⭐⭐⭐⭐ Verifier思路通用性强,数据效率高,对实际应用有重要意义