跳转至

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

会议: CVPR2026 arXiv: 2603.12217 代码: kuis-ai/track_on_r 领域: 视频理解 关键词: 点跟踪, 伪标签, 自训练, 验证器, 集成学习, Sim-to-Real

一句话总结

提出 Verifier——一个元模型,通过学习逐帧评估多个预训练跟踪器预测的可靠性,从中选取最优候选构建高质量伪标签轨迹,实现无需人工标注的真实世界点跟踪微调,在四个真实基准上达到 SOTA。

研究背景与动机

  1. 长程点跟踪依赖合成数据训练:当前 Transformer 点跟踪器(CoTracker、Track-On 等)均在大规模合成数据集(TAP-Vid Kubric)上训练,因为真实视频中密集逐帧长程轨迹标注成本极高。
  2. Sim-to-Real 域差距显著:合成数据与真实视频在纹理、光照、非刚体运动、遮挡模式和传感器噪声方面差异巨大,导致合成训练的模型在真实场景中可靠性下降。
  3. 朴素自训练的伪标签质量不可控:现有方法(CoTracker3)从随机选择的单一教师模型生成伪标签,但不同跟踪器在不同帧和场景下的表现差异很大,固定启发式或全局置信阈值无法应对这种异质性误差。
  4. 不同跟踪器互补性未被利用:Oracle 实验证明,逐帧选取最佳跟踪器的性能远超任何单一模型和随机选择,说明存在巨大的自适应选择空间。
  5. 缺乏可靠性估计机制:现有伪标签管线不区分教师预测的可靠与不可靠帧,错误会在训练中累积传播。
  6. 数据效率问题:BootsTAPIR 等方法需要数百万真实视频进行大规模蒸馏,而许多实际场景下可用无标注视频有限。

方法详解

整体框架

系统包含三个阶段:(1)在合成数据上训练 Verifier 元模型;(2)使用 Verifier 在真实无标注视频上生成高质量伪标签;(3)用伪标签微调学生跟踪器 Track-On2。推理时 Verifier 也可作为即插即用的集成模块使用。

候选轨迹构建

  • 训练阶段:对合成数据的 ground-truth 轨迹施加随机扰动(漂移、跳跃、遮挡、抖动),生成 M=6~12 条候选轨迹,模拟推理时不同跟踪器的真实误差模式。
  • 推理/微调阶段:由 6 个预训练教师模型(Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3-Window)分别产生候选轨迹。

局部特征提取(Localized Feature Extraction)

  1. 使用冻结的 CoTracker3 CNN 编码器提取稠密视觉特征 \(\mathbf{F}_t \in \mathbb{R}^{H' \times W' \times D}\)
  2. 在查询点和每个候选位置处通过可变形注意力(Deformable Attention) 采样局部上下文特征,而非简单单点采样。
  3. 拼接正弦位移嵌入 \(\eta(\Delta_t)\) 和身份嵌入(区分查询 vs 候选),经投影层映射到模型维度。

候选 Transformer(Candidate Transformer)

  • 受限交叉注意力:每帧的查询嵌入仅关注该帧的 M 个候选特征(候选维度),时间维度作为 batch 轴,逐帧独立计算。
  • 时间自注意力:在时间维度 L 上连接各帧的查询嵌入,传播跨帧一致性信息,使不确定帧可借助邻近帧的高置信预测来修正。
  • 输出:对解码后的查询特征与候选特征计算温度缩放余弦相似度(\(\tau=0.1\)),经 Softmax 得到逐帧候选可靠性分布 \(\hat{\mathbf{s}}_t \in \mathbb{R}^M\)

损失函数

采用软对比目标:目标分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\)\(\tau_s=0.3\)),以交叉熵 \(\mathcal{L} = \sum_t v_t \cdot \text{CE}(\hat{\mathbf{s}}_t, \mathbf{s}_t)\) 训练,遮挡帧被掩码排除。

伪标签生成与微调

  • 查询点采样:2/3 来自 SIFT 检测,1/3 来自运动显著区域(灰度帧差 + 空间平滑)。
  • 逐帧选取可靠性最高的候选作为伪标签,可见性通过教师多数投票估计。
  • 微调时混合合成数据(带 GT)和真实数据,渐进提高真实数据损失权重(Mix + Schedule)。

实验

主要结果

在 4 个真实基准(EgoPoints、RoboTAP、TAP-Vid Kinetics、TAP-Vid DAVIS)上与合成预训练和真实微调两组方法对比:

方法 EgoPoints \(\delta_{avg}^x\) RoboTAP AJ Kinetics AJ DAVIS AJ
Track-On2(合成基线) 61.7 68.1 55.3 67.0
BootsTAPIR 55.7 64.9 54.6 61.4
CoTracker3-ft 54.0 66.4 55.8 63.8
AllTracker† 62.0 68.8 56.8 63.7
Track-On-R (Ours) 67.3 70.9 57.8 68.1

Track-On-R 在全部数据集上取得最高分,EgoPoints 比最强竞争者 AllTracker 高 +5.3,RoboTAP AJ +2.1。

消融实验

教师组合:逐步加入更多教师(A→E),随机基线可能下降,但 Verifier 选择的性能持续提升,说明 Verifier 能有效利用互补性而不被弱教师拖累。

教师数量 DAVIS δ(Rand.) DAVIS δ(Ver.) RoboTAP δ(Rand.) RoboTAP δ(Ver.)
2 (A,B) 79.5 80.6 77.4 81.8
5 (A–E) 77.7 81.1 78.0 83.1

训练数据配比:纯真实数据已具竞争力;混合合成数据可改善遮挡可见性预测(OA);渐进调度(Mix + Schedule)综合效果最优。

关键发现

  • Verifier 作为推理时集成模块,无需微调即可超越所有单一教师和随机选择基线。
  • 仅需约 4864 条真实视频(远少于 BootsTAPIR 的百万级),即可实现有效迁移。
  • 训练集中无机器人视频,但 RoboTAP 上仍取得最优性能,证明泛化能力强。

亮点

  • 元模型设计精巧:将"哪个跟踪器在当前帧最可靠"建模为可学习分类问题,训练仅需合成数据却能跨域迁移。
  • 统一框架:同一个 Verifier 同时服务于训练时伪标签选择和推理时即插即用集成,不需要分别设计两套机制。
  • 数据效率高:用不足 5K 视频达到甚至超越百万级蒸馏方法的效果。
  • 鲁棒性好:加入弱教师不会降低 Verifier 性能,甚至可能进一步提升。

局限性

  • Verifier 性能上限受限于教师跟踪器质量——若所有教师在某帧都失败,Verifier 也无法挽回。
  • 微调效果依赖真实视频数据的质量和多样性,需人工策展合适的视频集合。
  • 候选轨迹需运行多个教师模型,推理/伪标签生成阶段计算开销较大(6 个模型串行/并行)。
  • 论文未讨论 Verifier 对教师模型数量的扩展性极限,以及极端场景(如运动模糊、极低帧率)下的表现。

相关工作

方向 代表工作 与本文关系
长程点跟踪 PIPs, TAPIR, CoTracker, Track-On 本文基于 Track-On2 作为学生模型
伪标签自训练 BootsTAPIR, CoTracker3, AnthroTAP 本文用 Verifier 替代随机教师选择
集成学习 Bagging, 结构化共识 Verifier 可视为学习式自适应集成

评分

  • 新颖性: ⭐⭐⭐⭐ — 元模型做跟踪器可靠性评估的角度新颖,合成训练跨域迁移的设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ — 4 个基准全面对比 + 教师组合/数据配比/推理集成三组消融
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,问题动机(Oracle 图)说服力强
  • 价值: ⭐⭐⭐⭐ — 提供了通用的伪标签质量控制范式,可推广到其他密集预测自训练任务