Real-World Point Tracking with Verifier-Guided Pseudo-Labeling¶
会议: CVPR2026 arXiv: 2603.12217 代码: kuis-ai/track_on_r 领域: 视频理解 关键词: 点跟踪, 伪标签, 自训练, 验证器, 集成学习, Sim-to-Real
一句话总结¶
提出 Verifier——一个元模型,通过学习逐帧评估多个预训练跟踪器预测的可靠性,从中选取最优候选构建高质量伪标签轨迹,实现无需人工标注的真实世界点跟踪微调,在四个真实基准上达到 SOTA。
研究背景与动机¶
- 长程点跟踪依赖合成数据训练:当前 Transformer 点跟踪器(CoTracker、Track-On 等)均在大规模合成数据集(TAP-Vid Kubric)上训练,因为真实视频中密集逐帧长程轨迹标注成本极高。
- Sim-to-Real 域差距显著:合成数据与真实视频在纹理、光照、非刚体运动、遮挡模式和传感器噪声方面差异巨大,导致合成训练的模型在真实场景中可靠性下降。
- 朴素自训练的伪标签质量不可控:现有方法(CoTracker3)从随机选择的单一教师模型生成伪标签,但不同跟踪器在不同帧和场景下的表现差异很大,固定启发式或全局置信阈值无法应对这种异质性误差。
- 不同跟踪器互补性未被利用:Oracle 实验证明,逐帧选取最佳跟踪器的性能远超任何单一模型和随机选择,说明存在巨大的自适应选择空间。
- 缺乏可靠性估计机制:现有伪标签管线不区分教师预测的可靠与不可靠帧,错误会在训练中累积传播。
- 数据效率问题:BootsTAPIR 等方法需要数百万真实视频进行大规模蒸馏,而许多实际场景下可用无标注视频有限。
方法详解¶
整体框架¶
系统包含三个阶段:(1)在合成数据上训练 Verifier 元模型;(2)使用 Verifier 在真实无标注视频上生成高质量伪标签;(3)用伪标签微调学生跟踪器 Track-On2。推理时 Verifier 也可作为即插即用的集成模块使用。
候选轨迹构建¶
- 训练阶段:对合成数据的 ground-truth 轨迹施加随机扰动(漂移、跳跃、遮挡、抖动),生成 M=6~12 条候选轨迹,模拟推理时不同跟踪器的真实误差模式。
- 推理/微调阶段:由 6 个预训练教师模型(Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3-Window)分别产生候选轨迹。
局部特征提取(Localized Feature Extraction)¶
- 使用冻结的 CoTracker3 CNN 编码器提取稠密视觉特征 \(\mathbf{F}_t \in \mathbb{R}^{H' \times W' \times D}\)。
- 在查询点和每个候选位置处通过可变形注意力(Deformable Attention) 采样局部上下文特征,而非简单单点采样。
- 拼接正弦位移嵌入 \(\eta(\Delta_t)\) 和身份嵌入(区分查询 vs 候选),经投影层映射到模型维度。
候选 Transformer(Candidate Transformer)¶
- 受限交叉注意力:每帧的查询嵌入仅关注该帧的 M 个候选特征(候选维度),时间维度作为 batch 轴,逐帧独立计算。
- 时间自注意力:在时间维度 L 上连接各帧的查询嵌入,传播跨帧一致性信息,使不确定帧可借助邻近帧的高置信预测来修正。
- 输出:对解码后的查询特征与候选特征计算温度缩放余弦相似度(\(\tau=0.1\)),经 Softmax 得到逐帧候选可靠性分布 \(\hat{\mathbf{s}}_t \in \mathbb{R}^M\)。
损失函数¶
采用软对比目标:目标分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\)(\(\tau_s=0.3\)),以交叉熵 \(\mathcal{L} = \sum_t v_t \cdot \text{CE}(\hat{\mathbf{s}}_t, \mathbf{s}_t)\) 训练,遮挡帧被掩码排除。
伪标签生成与微调¶
- 查询点采样:2/3 来自 SIFT 检测,1/3 来自运动显著区域(灰度帧差 + 空间平滑)。
- 逐帧选取可靠性最高的候选作为伪标签,可见性通过教师多数投票估计。
- 微调时混合合成数据(带 GT)和真实数据,渐进提高真实数据损失权重(Mix + Schedule)。
实验¶
主要结果¶
在 4 个真实基准(EgoPoints、RoboTAP、TAP-Vid Kinetics、TAP-Vid DAVIS)上与合成预训练和真实微调两组方法对比:
| 方法 | EgoPoints \(\delta_{avg}^x\) | RoboTAP AJ | Kinetics AJ | DAVIS AJ |
|---|---|---|---|---|
| Track-On2(合成基线) | 61.7 | 68.1 | 55.3 | 67.0 |
| BootsTAPIR | 55.7 | 64.9 | 54.6 | 61.4 |
| CoTracker3-ft | 54.0 | 66.4 | 55.8 | 63.8 |
| AllTracker† | 62.0 | 68.8 | 56.8 | 63.7 |
| Track-On-R (Ours) | 67.3 | 70.9 | 57.8 | 68.1 |
Track-On-R 在全部数据集上取得最高分,EgoPoints 比最强竞争者 AllTracker 高 +5.3,RoboTAP AJ +2.1。
消融实验¶
教师组合:逐步加入更多教师(A→E),随机基线可能下降,但 Verifier 选择的性能持续提升,说明 Verifier 能有效利用互补性而不被弱教师拖累。
| 教师数量 | DAVIS δ(Rand.) | DAVIS δ(Ver.) | RoboTAP δ(Rand.) | RoboTAP δ(Ver.) |
|---|---|---|---|---|
| 2 (A,B) | 79.5 | 80.6 | 77.4 | 81.8 |
| 5 (A–E) | 77.7 | 81.1 | 78.0 | 83.1 |
训练数据配比:纯真实数据已具竞争力;混合合成数据可改善遮挡可见性预测(OA);渐进调度(Mix + Schedule)综合效果最优。
关键发现¶
- Verifier 作为推理时集成模块,无需微调即可超越所有单一教师和随机选择基线。
- 仅需约 4864 条真实视频(远少于 BootsTAPIR 的百万级),即可实现有效迁移。
- 训练集中无机器人视频,但 RoboTAP 上仍取得最优性能,证明泛化能力强。
亮点¶
- 元模型设计精巧:将"哪个跟踪器在当前帧最可靠"建模为可学习分类问题,训练仅需合成数据却能跨域迁移。
- 统一框架:同一个 Verifier 同时服务于训练时伪标签选择和推理时即插即用集成,不需要分别设计两套机制。
- 数据效率高:用不足 5K 视频达到甚至超越百万级蒸馏方法的效果。
- 鲁棒性好:加入弱教师不会降低 Verifier 性能,甚至可能进一步提升。
局限性¶
- Verifier 性能上限受限于教师跟踪器质量——若所有教师在某帧都失败,Verifier 也无法挽回。
- 微调效果依赖真实视频数据的质量和多样性,需人工策展合适的视频集合。
- 候选轨迹需运行多个教师模型,推理/伪标签生成阶段计算开销较大(6 个模型串行/并行)。
- 论文未讨论 Verifier 对教师模型数量的扩展性极限,以及极端场景(如运动模糊、极低帧率)下的表现。
相关工作¶
| 方向 | 代表工作 | 与本文关系 |
|---|---|---|
| 长程点跟踪 | PIPs, TAPIR, CoTracker, Track-On | 本文基于 Track-On2 作为学生模型 |
| 伪标签自训练 | BootsTAPIR, CoTracker3, AnthroTAP | 本文用 Verifier 替代随机教师选择 |
| 集成学习 | Bagging, 结构化共识 | Verifier 可视为学习式自适应集成 |
评分¶
- 新颖性: ⭐⭐⭐⭐ — 元模型做跟踪器可靠性评估的角度新颖,合成训练跨域迁移的设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ — 4 个基准全面对比 + 教师组合/数据配比/推理集成三组消融
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,问题动机(Oracle 图)说服力强
- 价值: ⭐⭐⭐⭐ — 提供了通用的伪标签质量控制范式,可推广到其他密集预测自训练任务