Real-World Point Tracking with Verifier-Guided Pseudo-Labeling¶

会议: CVPR2026 arXiv: 2603.12217 代码: kuis-ai/track_on_r 领域: 视频理解 关键词: 点跟踪, 伪标签, 自训练, 验证器, 集成学习, Sim-to-Real

一句话总结¶

提出 Verifier——一个元模型，通过学习逐帧评估多个预训练跟踪器预测的可靠性，从中选取最优候选构建高质量伪标签轨迹，实现无需人工标注的真实世界点跟踪微调，在四个真实基准上达到 SOTA。

研究背景与动机¶

长程点跟踪依赖合成数据训练：当前 Transformer 点跟踪器（CoTracker、Track-On 等）均在大规模合成数据集（TAP-Vid Kubric）上训练，因为真实视频中密集逐帧长程轨迹标注成本极高。
Sim-to-Real 域差距显著：合成数据与真实视频在纹理、光照、非刚体运动、遮挡模式和传感器噪声方面差异巨大，导致合成训练的模型在真实场景中可靠性下降。
朴素自训练的伪标签质量不可控：现有方法（CoTracker3）从随机选择的单一教师模型生成伪标签，但不同跟踪器在不同帧和场景下的表现差异很大，固定启发式或全局置信阈值无法应对这种异质性误差。
不同跟踪器互补性未被利用：Oracle 实验证明，逐帧选取最佳跟踪器的性能远超任何单一模型和随机选择，说明存在巨大的自适应选择空间。
缺乏可靠性估计机制：现有伪标签管线不区分教师预测的可靠与不可靠帧，错误会在训练中累积传播。
数据效率问题：BootsTAPIR 等方法需要数百万真实视频进行大规模蒸馏，而许多实际场景下可用无标注视频有限。

方法详解¶

整体框架¶

系统包含三个阶段：（1）在合成数据上训练 Verifier 元模型；（2）使用 Verifier 在真实无标注视频上生成高质量伪标签；（3）用伪标签微调学生跟踪器 Track-On2。推理时 Verifier 也可作为即插即用的集成模块使用。

候选轨迹构建¶

训练阶段：对合成数据的 ground-truth 轨迹施加随机扰动（漂移、跳跃、遮挡、抖动），生成 M=6~12 条候选轨迹，模拟推理时不同跟踪器的真实误差模式。
推理/微调阶段：由 6 个预训练教师模型（Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3-Window）分别产生候选轨迹。

局部特征提取（Localized Feature Extraction）¶

使用冻结的 CoTracker3 CNN 编码器提取稠密视觉特征 \(\mathbf{F}_t \in \mathbb{R}^{H' \times W' \times D}\)。
在查询点和每个候选位置处通过可变形注意力（Deformable Attention） 采样局部上下文特征，而非简单单点采样。
拼接正弦位移嵌入 \(\eta(\Delta_t)\) 和身份嵌入（区分查询 vs 候选），经投影层映射到模型维度。

候选 Transformer（Candidate Transformer）¶

受限交叉注意力：每帧的查询嵌入仅关注该帧的 M 个候选特征（候选维度），时间维度作为 batch 轴，逐帧独立计算。
时间自注意力：在时间维度 L 上连接各帧的查询嵌入，传播跨帧一致性信息，使不确定帧可借助邻近帧的高置信预测来修正。
输出：对解码后的查询特征与候选特征计算温度缩放余弦相似度（\(\tau=0.1\)），经 Softmax 得到逐帧候选可靠性分布 \(\hat{\mathbf{s}}_t \in \mathbb{R}^M\)。

损失函数¶

采用软对比目标：目标分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\)（\(\tau_s=0.3\)），以交叉熵 \(\mathcal{L} = \sum_t v_t \cdot \text{CE}(\hat{\mathbf{s}}_t, \mathbf{s}_t)\) 训练，遮挡帧被掩码排除。

伪标签生成与微调¶

查询点采样：2/3 来自 SIFT 检测，1/3 来自运动显著区域（灰度帧差 + 空间平滑）。
逐帧选取可靠性最高的候选作为伪标签，可见性通过教师多数投票估计。
微调时混合合成数据（带 GT）和真实数据，渐进提高真实数据损失权重（Mix + Schedule）。

实验¶

主要结果¶

在 4 个真实基准（EgoPoints、RoboTAP、TAP-Vid Kinetics、TAP-Vid DAVIS）上与合成预训练和真实微调两组方法对比：

方法	EgoPoints \(\delta_{avg}^x\)	RoboTAP AJ	Kinetics AJ	DAVIS AJ
Track-On2（合成基线）	61.7	68.1	55.3	67.0
BootsTAPIR	55.7	64.9	54.6	61.4
CoTracker3-ft	54.0	66.4	55.8	63.8
AllTracker†	62.0	68.8	56.8	63.7
Track-On-R (Ours)	67.3	70.9	57.8	68.1

Track-On-R 在全部数据集上取得最高分，EgoPoints 比最强竞争者 AllTracker 高 +5.3，RoboTAP AJ +2.1。

消融实验¶

教师组合：逐步加入更多教师（A→E），随机基线可能下降，但 Verifier 选择的性能持续提升，说明 Verifier 能有效利用互补性而不被弱教师拖累。

教师数量	DAVIS δ(Rand.)	DAVIS δ(Ver.)	RoboTAP δ(Rand.)	RoboTAP δ(Ver.)
2 (A,B)	79.5	80.6	77.4	81.8
5 (A–E)	77.7	81.1	78.0	83.1

训练数据配比：纯真实数据已具竞争力；混合合成数据可改善遮挡可见性预测（OA）；渐进调度（Mix + Schedule）综合效果最优。

关键发现¶

Verifier 作为推理时集成模块，无需微调即可超越所有单一教师和随机选择基线。
仅需约 4864 条真实视频（远少于 BootsTAPIR 的百万级），即可实现有效迁移。
训练集中无机器人视频，但 RoboTAP 上仍取得最优性能，证明泛化能力强。

亮点¶

元模型设计精巧：将"哪个跟踪器在当前帧最可靠"建模为可学习分类问题，训练仅需合成数据却能跨域迁移。
统一框架：同一个 Verifier 同时服务于训练时伪标签选择和推理时即插即用集成，不需要分别设计两套机制。
数据效率高：用不足 5K 视频达到甚至超越百万级蒸馏方法的效果。
鲁棒性好：加入弱教师不会降低 Verifier 性能，甚至可能进一步提升。

局限性¶

Verifier 性能上限受限于教师跟踪器质量——若所有教师在某帧都失败，Verifier 也无法挽回。
微调效果依赖真实视频数据的质量和多样性，需人工策展合适的视频集合。
候选轨迹需运行多个教师模型，推理/伪标签生成阶段计算开销较大（6 个模型串行/并行）。
论文未讨论 Verifier 对教师模型数量的扩展性极限，以及极端场景（如运动模糊、极低帧率）下的表现。

评分¶

新颖性: ⭐⭐⭐⭐ — 元模型做跟踪器可靠性评估的角度新颖，合成训练跨域迁移的设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 4 个基准全面对比 + 教师组合/数据配比/推理集成三组消融
写作质量: ⭐⭐⭐⭐ — 结构清晰，问题动机（Oracle 图）说服力强
价值: ⭐⭐⭐⭐ — 提供了通用的伪标签质量控制范式，可推广到其他密集预测自训练任务

方向	代表工作	与本文关系
长程点跟踪	PIPs, TAPIR, CoTracker, Track-On	本文基于 Track-On2 作为学生模型
伪标签自训练	BootsTAPIR, CoTracker3, AnthroTAP	本文用 Verifier 替代随机教师选择
集成学习	Bagging, 结构化共识	Verifier 可视为学习式自适应集成