Drift-Resilient Temporal Priors for Visual Tracking¶

会议: CVPR 2026
arXiv: 2604.02654
代码: GitHub
领域: Object Detection / Visual Tracking
关键词: 视觉跟踪, 模型漂移, 时序建模, Transformer, 即插即用

一句话总结¶

提出 DTPTrack——一个轻量即插即用的时序建模模块，通过时序可靠性校准器（TRC）为历史帧分配可靠性分数过滤噪声，并通过时序引导合成器（TGS）将校准后的历史信息合成为动态先验 token 抑制跟踪漂移，在多个基准上达到 SOTA。

模型漂移是多帧视觉跟踪器的核心脆弱性：当跟踪器在某一帧做出不准确预测（如因遮挡或干扰物），这个错误信息被"烘焙"到目标的时序模型中，导致后续帧的进一步错误，形成级联误差并最终跟踪失败。

现有时序建模方法的两大缺陷：

在线模板更新：用高置信度的近期预测刷新模板，但一次错误更新就可能不可逆地破坏模板

多帧特征融合：直接拼接多帧特征送入 Transformer，但隐含地将所有历史帧视为同等可靠，无法区分高质量预测和噪声帧

核心洞察：一个鲁棒的时序跟踪器不仅要"记住"过去，还要能"批判性地评估"过去信息的可靠性。

DTPTrack 作为即插即用模块集成到现有跟踪器中，工作在主 Transformer block 之前。处理五帧序列：初始模板 \(z_0\)（来自 GT）、三个历史参考帧 \(z_1, z_2, z_3\)（前三个时间步的搜索区域）和当前搜索区域 \(x_0\)。

主骨干基于扩展的 LoRATv2，采用： - 帧内因果注意力 (FWCA)：帧内全注意力 + 跨帧因果注意力，在保持空间推理的同时高效建模时序依赖 - 流特定 LoRA 适配器 (SSLA)：为每个输入流分配轻量 LoRA 适配器，共享冻结 ViT 骨干

时序可靠性校准器 (TRC): 评估每个历史帧的信息质量。
- 首先对每帧做掩码平均池化：根据目标包围框生成二值掩码 \(M_i\)，对与目标重叠的 patch token 加权平均，得到摘要向量 \(s_i \in \mathbb{R}^D\)
- 然后用一个轻量 MLP + sigmoid（置信度门控 \(f_{gate}\)）为三个动态参考帧预测可靠性分数 \(c_i \in [0,1]\)
- 关键设计：初始模板 \(z_0\) 的置信度固定为 \(c_0 = 1.0\)（来自 GT），确保时序模型始终有一个稳定、未被污染的参考锚点。实验证明这对防止长期漂移至关重要
- 最终校准摘要向量 \(\hat{s}_i = s_i \cdot c_i\)
时序引导合成器 (TGS): 将校准后的历史信息合成为紧凑的动态先验 token。
- 维护一组可学习的基础先验 token \(P_{base} \in \mathbb{R}^{K \times D}\)
- 调制器 MLP 处理校准摘要序列，生成调制信号
- 动态先验 token \(P_{dyn} = P_{base} + f_{mod}([\hat{s}_0, \hat{s}_1, \hat{s}_2, \hat{s}_3])\)
- 添加可学习的位置和 token 类型嵌入
集成方式: 将动态先验 token 预拼接到跟踪器的标准输入序列前：\(\text{Input} = \text{Concat}[P_{dyn}, Z_0, Z_1, ..., X_0]\)。在 FWCA 中，先验 token 与初始模板分在同一计算块，作为稳定的基础上下文。

基准	指标	DTPTrack-L378	SPMTrack-L	LoRATv2-L378	LoRAT-g378
LaSOT	AUC	77.5	76.8	76.1	76.2
VastTrack	AUC	47.2	-	44.2	46.0
GOT-10k	AO	80.3	80.0	78.2	78.9
TrackingNet	AUC	86.9	86.9	85.7	86.0
UAV123	AUC	72.3	-	-	-

配置	LaSOT AUC	VastTrack AUC	说明
固定阈值 (替代学习门控)	72.0	38.2	TRC 的学习门控非常重要 (-2.3)
完全门控 z_0	73.2	40.1	锚定 GT 模板很关键
无基础先验 token	72.7	39.0	基础 token 提供稳定基础
拼接融合 (替代先验 token)	73.4	40.3	先验 token 优于直接拼接
基线 (无 DTPTrack)	73.3	40.1	-
完整模型	74.3	40.7	+1.0 AUC 提升

即插即用有效：集成到 OSTrack (+1.0 AUC)、ODTrack (+0.5 AUC)、LoRAT (+0.8 AUC) 三种不同架构上均一致提升，在 VastTrack 上 OSTrack 提升高达 +1.8 AUC。计算开销极小（MACs 增加不到 1G，参数增加 1-3M）。
TRC 的两个设计选择都很关键：
- 学习门控 vs 固定阈值：差 2.3 AUC，证明动态评估历史帧质量的必要性
- 锚定 GT 模板 (\(c_0 = 1.0\)) vs 可学习置信度：前者明显更好，说明保持一个不被污染的参考至关重要
TGS 对比实验：学习式动态先验优于动量法（+0.5 AUC）和光流法（+1.1 AUC），尤其在 VastTrack 等复杂场景上差距更明显。
时序深度分析：从 2 帧到 5 帧持续一致提升（72.0 → 74.3 AUC），5 帧是最佳平衡点。
效率优势：DTPTrack-L378 处理 5 帧的 MACs (581G) 少于 SPMTrack-L 处理 4 帧 (975G)，得益于 FWCA 的高效设计。