Real-World Point Tracking with Verifier-Guided Pseudo-Labeling¶

会议: CVPR 2026
arXiv: 2603.12217
代码: kuis-ai.github.io/track_on_r
领域: 视频理解 / 点跟踪
关键词: 点跟踪, 伪标签, Verifier, 多教师集成, 真实世界微调

一句话总结¶

提出一个可学习的Verifier元模型，通过逐帧评估多个预训练tracker预测的可靠性来生成高质量伪标签，实现合成数据到真实世界的高效域适应，在四个真实世界点跟踪基准上达到SOTA。

背景与动机¶

长程点跟踪模型(如CoTracker、TAPIR、Track-On)通常在合成数据(TAP-Vid Kubric)上训练，但在真实视频中因外观、光照、遮挡模式差异导致性能下降。自训练(self-training)用伪标签在真实视频上微调是一条路，但核心问题是：不同tracker在不同帧、不同场景下表现差异极大，没有一个tracker在所有情况下都可靠。随机选择教师模型或使用固定融合策略生成的伪标签质量不稳定，会传播系统性误差。作者做了oracle实验发现：如果每帧都能选到最佳tracker，性能可以大幅提升，说明存在巨大的改进空间。

核心问题¶

如何自动判断多个tracker在每一帧的可靠程度，从而选取最准确的预测作为伪标签，使真实世界微调获得更干净的监督信号？

方法详解¶

Verifier不是一个tracker，它是一个"给tracker打分"的元模型。训练在合成数据上完成（有GT可以监督），但学到的"判断可靠性"的能力可以迁移到真实世界。

整体框架¶

给定视频和查询点，6个预训练tracker（Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3）各生成一条候选轨迹。Verifier在每帧对这些候选评估可靠性分数，选分数最高的候选作为该帧的伪标签。这些帧级最优预测拼接成完整伪标签轨迹，用于微调学生模型Track-On2。

关键设计¶

Verifier训练策略: 在合成数据K-EPIC上训练。通过对真实GT轨迹施加随机扰动（漂移、跳变、遮挡、身份切换等6类，位移1~128像素）生成候选轨迹，用软对比学习目标训练——距离GT越近的候选应获得越高分数。这种"造假→识假"方式让Verifier学会识别可靠预测的视觉一致性线索。
局部化特征提取+Candidate Transformer: Verifier不做全局推理，而是在每个候选位置提取局部特征（通过可变形注意力），与查询点特征比较。Candidate Transformer包含受限交叉注意力（每帧的查询只注意当前帧的候选）+ 时间自注意力（跨帧传播上下文），最终输出温度缩放的softmax可靠性分布。
推理时集成: Verifier还可以在测试时直接作为即插即用的集成模块使用——不用微调，只需将多个tracker的预测经Verifier选取最优，已能超越任何单一tracker。

损失函数 / 训练策略¶

Verifier: 交叉熵损失，目标是软化后的距离排名分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\)，遮挡帧被mask
微调: 使用合成数据(有GT)和真实数据(Verifier伪标签)混合训练，逐渐增大真实数据权重。AdamW，lr 3e-5，48帧clips，256查询点

实验关键数据¶

数据集	指标	Track-On-R (本文)	Track-On2 (基线)	最强竞争者
EgoPoints	δ_avg	67.3	61.7	62.0 (AllTracker)
RoboTAP	AJ	70.9	68.1	68.8 (AllTracker)
Kinetics	AJ	57.8	55.3	57.3 (BootsTAPNext)
DAVIS	AJ	68.1	67.0	65.2 (BootsTAPNext)

仅用~5K真实视频即可达到甚至超越使用百万级真实视频的BootsTAPIR/BootsTAPNext。

消融实验要点¶

增加教师数量单调提升Verifier性能（即使加入弱教师也不会拉低Verifier，但会降低随机选择baseline）
Mix+Schedule训练策略最优，纯真实数据微调也已很强
仅用~3K视频(TAO)即可获得大部分适应收益
Verifier显著超越非学习集成策略(几何中位数、一致性投票、Kalman滤波等)
真实世界微调不会损害合成基准性能，反而在PointOdyssey上δ_avg提升+8.3

亮点¶

Verifier作为元模型的思路非常巧妙——不做跟踪本身，而是学习"谁跟得好"，把多个tracker的互补性转化为优势
对比oracle上界的分析清晰展示了自适应选择的巨大潜力（Fig.2非常有说服力）
训练时的轨迹扰动策略设计精巧（6种扰动模式覆盖了真实tracker的各种失败模式），且完全在合成数据上完成，零真实标注需求
数据效率极高：~3K视频即可接近最佳性能，远少于BootsTAPIR等的百万级规模

局限性 / 可改进方向¶

Verifier的上界受限于教师tracker——如果所有教师都在某帧失败，Verifier也无能为力
微调效果依赖真实视频数据的质量和多样性
当前仅验证了点跟踪任务，Verifier思路是否能推广到光流、VOS等需要进一步探索
推理时使用6个教师tracker的计算开销较大

与相关工作的对比¶

CoTracker3: 使用随机教师伪标签策略，在Kinetics上AJ 55.8 vs 本文57.8，核心差距在于伪标签质量
BootsTAPIR/BootsTAPNext: 大规模学生-教师蒸馏方案，需要百万级真实视频，而本文仅需~5K视频即可超越
AllTracker: 利用额外光流标注数据，在EgoPoints上62.0 vs 本文67.3，说明Verifier引导的伪标签比真实光流标注更有效

启发与关联¶

Verifier思路可迁移到任何需要多模型融合/伪标签生成的场景——不是平均或投票，而是学习"谁在这一刻最可信"
与 verifier_pseudo_label_open_world idea 直接相关：这篇论文提供了Verifier用于伪标签选择的完整方法论
可以考虑将Verifier思路用于目标检测的多教师知识蒸馏——逐样本、逐框选择最可靠的教师

评分¶

新颖性: ⭐⭐⭐⭐⭐ Verifier元模型的设计思路新颖且优雅，将可靠性估计从启发式提升到可学习的paradigm
实验充分度: ⭐⭐⭐⭐⭐ 4个真实世界基准+2个合成基准，多维度消融，对比非学习集成策略和oracle上界
写作质量: ⭐⭐⭐⭐⭐ 动机分析（oracle gap）极有说服力，方法描述清晰，图示优秀
价值: ⭐⭐⭐⭐⭐ Verifier思路通用性强，数据效率高，对实际应用有重要意义