Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers¶

会议: ECCV 2024
arXiv: 2407.08394
代码: 无
领域: 视觉目标跟踪 / 扩散模型应用
关键词: unsupervised tracking, diffusion model, prompt learning, cross-attention, motion information

一句话总结¶

首次将预训练T2I扩散模型（Stable Diffusion）应用于无监督视觉跟踪，通过初始提示学习器在cross-attention图上激活目标区域、在线提示更新器融合长短期运动信息动态适应目标运动，在5个基准上全面超越此前最优无监督跟踪器（TrackingNet Success 0.675, VOT2018 EAO 0.365）。

研究背景与动机¶

领域现状：深度学习跟踪器依赖大量标注数据进行监督训练。无监督跟踪方法（UDT、s²siamfc、USOT、ULAST）基于Siamese结构，利用前向-后向一致性或对抗掩码进行自监督学习。

现有痛点：(1) 无监督方法难以充分利用视频帧的语义信息和空间结构；(2) 视频帧间上下文关系利用不足；(3) 目标运动过程中外观变化大，固定跟踪模板难以适应。

核心矛盾：T2I扩散模型拥有丰富的视觉语义理解能力，但其设计目标是图像生成而非目标跟踪。

本文要解决什么？ 利用T2I扩散模型中蕴含的语义和结构知识进行无监督视觉跟踪。

切入角度：cross-attention图能激活与文本prompt语义相关的区域——学到代表跟踪目标的prompt embedding就能定位目标。

核心idea一句话：学习可优化prompt embedding使其在SD的cross-attention图上激活目标区域，通过融合长短期运动信息在线更新prompt适应目标运动。

方法详解¶

整体框架¶

第一帧+目标框 → 初始提示学习器（冻结SD + 可优化prompt + attention harmonization → 初始prompt \(p_1\)）→ 后续帧：在线提示更新器（运动信息提取 + blend head → 更新prompt \(p_k\)）→ cross-attention图 → 最小包围框。

关键设计¶

初始提示学习器 + Attention Harmonization
- 将第一帧编码加噪送入UNet，学习prompt \(p_1\) 使cross-attention图 \(M_c\) 激活目标区域
- self-attention增强：\(M_c'(:,:) = \sum_i \sum_j M_c(i,j) \cdot M_s(i,j,:,:)\)
- 融合：\(\mathcal{M} = (1-\alpha) \cdot M_c' + \alpha \cdot M_c\)，\(\alpha=0.5\)
- 损失：\(L = \|\mathcal{M} - \mathcal{F}_1\|_2^2 + L_{DM}\)，GT map为bbox内均匀激活
- 设计动机：self-attention编码像素间语义关系（目标-背景关系），有助遮挡/形变场景
在线提示更新器
- 运动信息提取：两个ResNet18+Conv3D编码器分别提取短期（2帧）和长期（T帧）运动信息
- cross-attention融合目标外观与运动信息：\(l_k^L = \text{Cross-Attn}(Q_k, m_k^L)\)，\(l_k^S = \text{Cross-Attn}(Q_k, m_k^S)\)
- MLP融合长短期信息：\(l_k = \text{MLP}(l_k^L, l_k^S)\)
- 残差更新：\(p_k = (1-\beta) \cdot \mathcal{H}_b(p_{k-1} + l_k) + \beta \cdot p_{k-1}\)，\(\beta=0.7\)
- 设计动机：短期运动可能因遮挡/光照变化而不可靠，长期信息提供鲁棒时空连续性

损失函数 / 训练策略¶

伪标签：光流模型在GOT-10k、ImageNet VID、LaSOT、YouTube-VOS上生成
扩散模型全程冻结，仅学prompt embedding和更新器参数
初始prompt：Adam，lr=5e-3，3 epochs
在线更新器：Adam，lr=5e-4，35 epochs；输入512×512，attention map 64×64

实验关键数据¶

主实验¶

在5个跟踪基准上的对比（Ours均为无监督）：

方法	类型	TrackingNet Suc↑	Pre↑	NPre↑	VOT2016 EAO↑	VOT2018 EAO↑
SiamFC	有监督	0.571	0.533	0.663	0.235	0.188
SiamRPN++	有监督	0.733	0.694	0.800	-	0.414
DiMP	有监督	0.740	0.687	0.801	-	0.440
USOT*	无监督	0.616	0.566	0.691	0.402	0.344
ULAST*-on	无监督	0.654	0.592	0.732	0.417	0.355
Diff-Tracker	无监督	0.675	0.614	0.751	0.430	0.365

VOT2016/2018详细指标：

方法	VOT2016 Acc↑	Rob↓	VOT2018 Acc↑	Rob↓
ULAST*-on	0.603	0.214	0.571	0.286
Diff-Tracker	0.605	0.206	0.580	0.273

消融实验¶

组件	效果描述
仅cross-attention \(M_c\)	基线
+ attention harmonization	编码目标-背景关系，提升遮挡鲁棒性
+ 仅短期运动更新	提升prompt适应性，但遮挡场景不稳定
+ 长短期运动融合	最优，增强时空连续性

关键发现¶

5个基准上全面超越此前最优无监督跟踪器ULAST
TrackingNet Success +2.1%（0.654→0.675），VOT2018 EAO +1.0%（0.355→0.365）
部分指标接近有监督方法（VOT2016 EAO 0.430接近DaSiamRPN的0.411）
扩散模型在未经视频数据训练的情况下展现视频上下文理解能力

亮点与洞察¶

首次将T2I扩散模型的cross-attention用于无监督目标跟踪，开创新范式
attention harmonization融合self/cross-attention，用像素关系丰富跟踪线索
长短期运动融合的在线更新设计合理，适应目标外观动态变化
证明扩散模型内化的视觉语义知识可迁移到非生成任务

局限性 / 可改进方向¶

跟踪速度受限于扩散模型推理开销，实时性不足（论文未报告FPS）
GT attention map为简单bbox激活，未利用更精细的目标掩码
在长时间跟踪（LaSOT）上与有监督方法差距仍较大（0.405 vs 0.495）
与同期扩散特征跟踪方法（DiffusionTrack）缺乏对比

评分¶

新颖性: ⭐⭐⭐⭐ 首次将T2I扩散模型用于无监督跟踪
实验充分度: ⭐⭐⭐⭐ 5个基准数据集全面评测
写作质量: ⭐⭐⭐⭐ 方法动机和设计逻辑清晰
价值: ⭐⭐⭐ 概念验证有意义，但受限于扩散模型推理速度