Uni-MDTrack: Learning Decoupled Memory and Dynamic States for Parameter-Efficient Visual Tracking in All Modality¶
日期: 2026-03-15
arXiv: 2603.14452
代码: 无
领域: 视频理解 / 目标检测
关键词: visual tracking, memory compression, SSM, parameter-efficient, multi-modal
一句话总结¶
提出 Uni-MDTrack,用 Memory-Aware Compression Prompt (MCP) 将记忆库压缩为固定 token + Dynamic State Fusion (DSF) 用 SSM 捕捉目标连续动态状态,仅训练 <30% 参数即在 RGB/RGB-D/T/E/Language 五种模态 10 个数据集上达到 SOTA。
研究背景与动机¶
- 领域现状: One-stream Transformer tracker 在模板-搜索区域关系建模上已很强,但缺乏有效的时空上下文建模。
- 现有痛点: (a) 记忆库方法只在 prediction head 前融合,不够深;(b) 辅助模板法增加序列长度、计算开销大;(c) 时间传播 token 同时关注模板和搜索区域,更像"模板增强器"而非动态状态表示。
- 核心 idea: MCP 用可学习 query 将记忆库压缩为固定数量 token,在 backbone 每层深度交互;DSF 用 SSM 只从搜索区域特征更新目标动态状态,避免模板污染。
方法详解¶
整体框架¶
模板 + 搜索区域 + 记忆库 → MCP 将记忆压缩为固定 token 并深度融入 backbone → DSF 用 SSM 从搜索区域提取目标动态状态 → 多阶段融合 → 预测头输出跟踪结果。
关键设计¶
-
MCP (Memory-Aware Compression Prompt):
- 做什么:将可变长记忆库压缩为固定 16 个 memory token
- 核心思路:\(N_M\) 个可学习 query token \(\mathbf{q}\) 通过 cross-attention 对记忆库 \(\mathbf{F}_m\) 做动态聚合:\(\mathbf{Attn} = \text{Softmax}[\mathbf{Q} \cdot \mathbf{K} / \sqrt{d} + \text{ALiBi}(\mathbf{F}_m)]\),输出 memory-aware token concat 到输入序列在全层参与自注意力
- ALiBi 位置偏置: \(-\mathbf{m}_h \times |j - N_{mb}|\),赋予近帧更高权重,同时实现推理时记忆长度免训练外推(理论证明尾部质量指数衰减,不影响已训练分布)
- 设计动机:传统记忆库在 prediction head 前融合太浅,MCP 让记忆信息在每一层深度影响特征学习
-
DSF (Dynamic State Fusion):
- 做什么:持续捕捉目标的连续动态状态变化
- 核心思路:基于 Mamba SSM 的状态更新 \(h(t) = \bar{\mathbf{A}} \odot h(t-1) + \bar{\mathbf{B}} \odot \mathbf{S}_1\),只用搜索区域特征更新(排除模板干扰)。4 个 DSF 模块分布在 backbone 的 4 个阶段,通过 input/output fusion layer (cross-attention) 实现渐进融合
- 设计动机:现有时间传播 token 同时关注模板和搜索区域,更像"模板增强器"而非动态状态。DSF 专注搜索区域的状态演化
- 与先前 SSM tracker 的区别: MambaVT/MCITrack 用 SSM 作 backbone(需设计扫描策略),DSF 用 SSM 作 PEFT 适配器(首创)
-
统一多模态设计: 6 通道输入(RGB 3ch + D/T/E 3ch),对纯 RGB 任务复制 RGB 通道。文本通过 CLIP-L 提取 [cls] token。一个模型覆盖 RGB/RGB-D/T/E/Language 五种模态。
实验关键数据¶
计算效率¶
| 方法 | 可训练参数(M) | 总参数(M) | FLOPs(G) |
|---|---|---|---|
| HIPTrack | 34.1 | 66.9 | 120.4 |
| LoRAT-B384 | 13.0 | 97.0 | 99.1 |
| SPMTrack-B | 29.2 | — | 115.3 |
| Uni-MDTrack-B | 27.1 | 27.9 | 88.2 |
| Uni-MDTrack-L | 54.9 | 257.4 | 287.4 |
RGB 跟踪性能¶
| 方法 | LaSOT AUC% | TrackingNet AUC% | LaSOText AUC% |
|---|---|---|---|
| SUTrack-B224 | 73.2 | 85.7 | 53.1 |
| SUTrack-L384 | 75.2 | 87.7 | — |
| LoRAT-B384 | 72.1 | 85.6 | 51.5 |
| SPMTrack-B | 73.4 | 86.0 | — |
| Uni-MDTrack-B | 74.7 | 86.1 | 54.3 |
| Uni-MDTrack-L | 76.1 | 88.0 | 55.2 |
多模态跟踪性能¶
| 方法 | LasHeR SR% (RGB-T) | VisEvent F-Score% (RGB-E) | DepthTrack Re% (RGB-D) |
|---|---|---|---|
| SUTrack-B224 | 59.9 | 65.1 | 65.7 |
| FlexTrack (ICCV25) | 62.0 | 67.0 | 66.9 |
| Uni-MDTrack-B | 61.2 | 65.9 | 66.3 |
| Uni-MDTrack-L | 62.1 | 67.4 | 67.2 |
关键发现¶
- 10 个数据集跨 5 种模态全部 SOTA 或 competitive,<30% 可训练参数
- RGB-only:Uni-MDTrack-B 比 SUTrack-B224 LaSOT AUC 高 +1.5%
- MCP 和 DSF 可作为 plug-and-play 组件,分别为基线 tracker 带来稳定提升
亮点与洞察¶
- 记忆压缩的深度交互:MCP 让记忆从"在输出端打补丁"变为"在全层深度融合",显著提升时空上下文利用
- SSM 用于跟踪动态状态的首次探索:Mamba 的状态建模天然适合跟踪场景中目标的连续状态演化
- 多模态统一架构:一个模型覆盖 5 种模态 10 个数据集,避免了为每种模态训练独立模型
相关工作对比¶
- vs HIPTrack: 仅在 prediction head 前融合记忆,MCP 全层深度交互,FLOPs 66.9G vs 27.9G
- vs SPMTrack: 传播 token 同时关注模板和搜索区域,DSF 仅用搜索区域验证去除模板污染的重要性
- vs MambaVT/MambaLT: 用 SSM 替代 backbone 需复杂扫描策略,DSF 作为 PEFT 插件更轻量
相关工作对比¶
- vs HIPTrack: 仅在 prediction head 前融合记忆,MCP 全层深度交互,FLOPs 66.9G vs 27.9G
- vs SPMTrack: 传播 token 同时关注模板和搜索区域,DSF 仅用搜索区域验证去除模板污染的重要性
- vs MambaVT/MambaLT: 用 SSM 替代 backbone 需复杂扫描策略,DSF 作为 PEFT 插件更轻量
局限性 / 可改进方向¶
- MCP 的记忆 token 数量(16)是固定的,可能不是所有场景的最优选择
- DSF 的效果依赖 Mamba SSM 的长程建模能力在跟踪任务中的适用性
- 未在超长序列(>1000 帧)上验证 ALiBi 外推的实际效果
评分¶
- 新颖性: ⭐⭐⭐⭐ MCP 的记忆压缩 + DSF 的 SSM 动态状态是好的组合
- 实验充分度: ⭐⭐⭐⭐⭐ 10 个数据集 + 5 种模态 + 即插即用验证
- 写作质量: ⭐⭐⭐⭐ 理论分析(SSM 外推、ALiBi 边界)有深度
- 价值: ⭐⭐⭐⭐ 参数高效多模态跟踪的实用框架