RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation¶

会议: CVPR2026 arXiv: 2603.03617 代码: IdolLab/RAGTrack 领域: 视频理解 / RGBT跟踪 关键词: RGBT跟踪, 检索增强生成, 多模态融合, 语言引导跟踪, 自适应Token融合

一句话总结¶

首次将文本描述引入 RGBT 跟踪，提出基于检索增强生成（RAG）的框架 RAGTrack，通过多模态 Transformer 编码器、自适应 Token 融合和上下文感知推理模块，在四个 RGBT 基准上取得 SOTA。

RAGTrack 包含三个核心模块：多模态 Transformer 编码器（MTE）、自适应 Token 融合（ATF）和上下文感知推理模块（CRM）。输入为 RGB/TIR 搜索图像、模板图像和语言描述，输出目标边界框。

使用三阶段下采样将模板和搜索图像转为 patch token
引入序列前缀 \(\mathbf{E}^t\)（固定文本提示 + 可学习 token）与语言描述 \(\mathbf{L}^t\) 拼接后经 CLIP 文本编码器编码
将推理 token \(\mathbf{R}_m^t\)、文本 token \(\hat{\mathbf{H}}^t\)、模板 token \(\hat{\mathbf{Z}}_m^t\)、搜索 token \(\hat{\mathbf{X}}_m^t\) 拼接为统一序列
RGB/TIR 两支采用参数共享的多头自注意力进行统一视觉-语言建模

动态 Token 选择：复用自注意力得分，计算搜索 token 与推理/文本/模板/搜索 token 的注意力分数 \(\mathbf{A}_m^{total}\)，按保留比 \(\gamma=85\%\) 筛选目标相关 token，无参数开销
自适应通道交换：计算 RGB 与 TIR 特征的跨模态通道相关性 \(\mathbf{S}\)，按交换比 \(\sigma=50\%\) 选择关键通道进行交换，再经 MLP 融合
部署在 HiViT-B 的第 6/12/18/24 层，实现渐进式跨层融合

采用 RAG 范式进行时序语言推理，包括四个阶段：

Construction：构建动态知识库 \(\mathbf{D}_m\)（维护 \(n=4\) 个历史文本特征），仅当新特征与已有条目的余弦相似度低于阈值 \(\lambda=1.0\) 时才添加
Retrieval：从知识库中检索 top-\(k=2\) 个最相关特征，通过模态内交叉注意力 \(\Phi\) 细化搜索特征
Augmentation：对推理/文本/模板特征做平均池化后拼接，经 MLP 生成下一帧推理 token；再通过交叉注意力和哈达玛积增强时序表征
Generation：使用 QWen2.5-VL-3B 根据搜索图像和结构化提示动态生成上下文感知的目标描述，持续更新多模态参考

多任务联合损失：\(\mathcal{L} = L_{\text{cls}} + 2 L_{\text{iou}} + 5 L_1\)，其中分类采用 focal loss，回归采用 L1 + GIoU loss。

数据集	指标	RAGTrack	次优方法	提升
GTOT	MPR/MSR	95.1/79.3	DMD 94.2/78.6	+0.9/+0.7
RGBT210	PR/SR	93.2/67.1	AETrack 90.4/66.3	+2.8/+0.8
RGBT234	MPR/MSR	93.8/69.5	SUTrack 92.1/69.2	+1.7/+0.3
LasHeR	PR/NPR/SR	76.8/73.0/61.1	STTrack 76.0/−/60.3	+0.8/−/+0.8

LasHeR 属性级分析显示：全遮挡（TO）+10.7% PR，出视野（OV）+5.5% SR，表明 CRM 在外观剧变下维持目标身份的能力。

vs ViPT/BAT/SDSTrack（视觉提示学习）：这些方法仅使用视觉 prompt 增强跟踪，缺乏语言级语义；RAGTrack 引入文本描述提供更抽象的目标表示
vs RGBL 跟踪（CiteTracker/UVLTrack）：RGBL 方法面临视觉-语言静态不对齐问题；RAGTrack 通过 MLLM 动态生成描述解决
vs TrackingMiM（唯一引入 RAG 的跟踪工作）：仅复用预存储特征；RAGTrack 通过动态知识库和上下文推理实现真正的 RAG
vs SUTrack/AINet（当前 SOTA）：在 RGBT234 上 ATF 仅 101.8M 参数即超越 SUTrack（384 分辨率），效率更优