跳转至

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

会议: CVPR 2026
arXiv: 2603.12217
代码: kuis-ai.github.io/track_on_r
领域: 视频理解 / 点跟踪
关键词: 点跟踪, 伪标签, Verifier, 多教师集成, 真实世界微调

一句话总结

提出一个可学习的Verifier元模型,通过逐帧评估多个预训练tracker预测的可靠性来生成高质量伪标签,实现合成数据到真实世界的高效域适应,在四个真实世界点跟踪基准上达到SOTA。

背景与动机

长程点跟踪模型(如CoTracker、TAPIR、Track-On)通常在合成数据(TAP-Vid Kubric)上训练,但在真实视频中因外观、光照、遮挡模式差异导致性能下降。自训练(self-training)用伪标签在真实视频上微调是一条路,但核心问题是:不同tracker在不同帧、不同场景下表现差异极大,没有一个tracker在所有情况下都可靠。随机选择教师模型或使用固定融合策略生成的伪标签质量不稳定,会传播系统性误差。作者做了oracle实验发现:如果每帧都能选到最佳tracker,性能可以大幅提升,说明存在巨大的改进空间。

核心问题

如何自动判断多个tracker在每一帧的可靠程度,从而选取最准确的预测作为伪标签,使真实世界微调获得更干净的监督信号?

方法详解

Verifier不是一个tracker,它是一个"给tracker打分"的元模型。训练在合成数据上完成(有GT可以监督),但学到的"判断可靠性"的能力可以迁移到真实世界。

整体框架

给定视频和查询点,6个预训练tracker(Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3)各生成一条候选轨迹。Verifier在每帧对这些候选评估可靠性分数,选分数最高的候选作为该帧的伪标签。这些帧级最优预测拼接成完整伪标签轨迹,用于微调学生模型Track-On2。

关键设计

  1. Verifier训练策略: 在合成数据K-EPIC上训练。通过对真实GT轨迹施加随机扰动(漂移、跳变、遮挡、身份切换等6类,位移1~128像素)生成候选轨迹,用软对比学习目标训练——距离GT越近的候选应获得越高分数。这种"造假→识假"方式让Verifier学会识别可靠预测的视觉一致性线索。

  2. 局部化特征提取+Candidate Transformer: Verifier不做全局推理,而是在每个候选位置提取局部特征(通过可变形注意力),与查询点特征比较。Candidate Transformer包含受限交叉注意力(每帧的查询只注意当前帧的候选)+ 时间自注意力(跨帧传播上下文),最终输出温度缩放的softmax可靠性分布。

  3. 推理时集成: Verifier还可以在测试时直接作为即插即用的集成模块使用——不用微调,只需将多个tracker的预测经Verifier选取最优,已能超越任何单一tracker。

损失函数 / 训练策略

  • Verifier: 交叉熵损失,目标是软化后的距离排名分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\),遮挡帧被mask
  • 微调: 使用合成数据(有GT)和真实数据(Verifier伪标签)混合训练,逐渐增大真实数据权重。AdamW,lr 3e-5,48帧clips,256查询点

实验关键数据

数据集 指标 Track-On-R (本文) Track-On2 (基线) 最强竞争者
EgoPoints δ_avg 67.3 61.7 62.0 (AllTracker)
RoboTAP AJ 70.9 68.1 68.8 (AllTracker)
Kinetics AJ 57.8 55.3 57.3 (BootsTAPNext)
DAVIS AJ 68.1 67.0 65.2 (BootsTAPNext)

仅用~5K真实视频即可达到甚至超越使用百万级真实视频的BootsTAPIR/BootsTAPNext。

消融实验要点

  • 增加教师数量单调提升Verifier性能(即使加入弱教师也不会拉低Verifier,但会降低随机选择baseline)
  • Mix+Schedule训练策略最优,纯真实数据微调也已很强
  • 仅用~3K视频(TAO)即可获得大部分适应收益
  • Verifier显著超越非学习集成策略(几何中位数、一致性投票、Kalman滤波等)
  • 真实世界微调不会损害合成基准性能,反而在PointOdyssey上δ_avg提升+8.3

亮点

  • Verifier作为元模型的思路非常巧妙——不做跟踪本身,而是学习"谁跟得好",把多个tracker的互补性转化为优势
  • 对比oracle上界的分析清晰展示了自适应选择的巨大潜力(Fig.2非常有说服力)
  • 训练时的轨迹扰动策略设计精巧(6种扰动模式覆盖了真实tracker的各种失败模式),且完全在合成数据上完成,零真实标注需求
  • 数据效率极高:~3K视频即可接近最佳性能,远少于BootsTAPIR等的百万级规模

局限性 / 可改进方向

  • Verifier的上界受限于教师tracker——如果所有教师都在某帧失败,Verifier也无能为力
  • 微调效果依赖真实视频数据的质量和多样性
  • 当前仅验证了点跟踪任务,Verifier思路是否能推广到光流、VOS等需要进一步探索
  • 推理时使用6个教师tracker的计算开销较大

与相关工作的对比

  • CoTracker3: 使用随机教师伪标签策略,在Kinetics上AJ 55.8 vs 本文57.8,核心差距在于伪标签质量
  • BootsTAPIR/BootsTAPNext: 大规模学生-教师蒸馏方案,需要百万级真实视频,而本文仅需~5K视频即可超越
  • AllTracker: 利用额外光流标注数据,在EgoPoints上62.0 vs 本文67.3,说明Verifier引导的伪标签比真实光流标注更有效

启发与关联

  • Verifier思路可迁移到任何需要多模型融合/伪标签生成的场景——不是平均或投票,而是学习"谁在这一刻最可信"
  • verifier_pseudo_label_open_world idea 直接相关:这篇论文提供了Verifier用于伪标签选择的完整方法论
  • 可以考虑将Verifier思路用于目标检测的多教师知识蒸馏——逐样本、逐框选择最可靠的教师

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Verifier元模型的设计思路新颖且优雅,将可靠性估计从启发式提升到可学习的paradigm
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个真实世界基准+2个合成基准,多维度消融,对比非学习集成策略和oracle上界
  • 写作质量: ⭐⭐⭐⭐⭐ 动机分析(oracle gap)极有说服力,方法描述清晰,图示优秀
  • 价值: ⭐⭐⭐⭐⭐ Verifier思路通用性强,数据效率高,对实际应用有重要意义