MDTrack: Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking¶
日期: 2026-03-10
arXiv: 2603.09287
代码: 有
领域: 视频理解 / 多模态跟踪
关键词: multi-modal tracking, MoE, SSM, Mamba, RGB-T, RGB-D, RGB-E
一句话总结¶
提出 MDTrack,通过 MoE(Mixture of Experts)实现模态感知融合(为 IR/Event/Depth/RGB 分配专用专家)+ 双 SSM(State Space Model)实现解耦时序传播(RGB 和 X 模态各自独立更新隐状态),在 5 个多模态跟踪基准上达到 SOTA。
研究背景与动机¶
-
领域现状: 多模态目标跟踪通过融合 RGB + 红外/事件/深度等互补模态来应对低照度、运动模糊等挑战。
-
现有痛点: (i) 现有方法采用统一融合策略,忽略模态间的固有差异(IR 捕获热信号 vs Event 检测快速运动 vs Depth 提供几何结构);(ii) 通过混合 token 传播时序信息,导致异质时序动态纠缠。
-
核心 idea: 用 MoE 让每种模态有专属专家处理融合,用双 SSM 解耦 RGB 和 X 模态的时序建模。
方法详解¶
模态感知融合(MoE)¶
- 专家库 {E_RGB, E_T, E_E, E_D} 分别处理不同模态
- 门控机制根据输入特征动态选 Top-2 专家
- 加载均衡损失确保专家被合理激活
- 专家引导的融合权重 \(F_i\) 自适应加权各模态贡献
解耦时序传播(双 SSM)¶
- 两个独立 Mamba SSM 分别维护 \(h_{RGB}\) 和 \(h_X\) 隐状态
- 输入特征间做双向交叉注意力实现隐式信息交换
- 时序特征通过交叉注意力注入 backbone 增强特征准确性
- 隐状态逐帧传播,无干扰地携带各模态的长期时序信息
实验关键数据¶
LasHeR(RGB-T 跟踪)¶
| 方法 | Pr↑ | AUC↑ |
|---|---|---|
| STTrack (AAAI'25) | 76.0 | 60.3 |
| MDTrack-S | 76.5 | 61.4 |
| SUTrack (AAAI'25) | 74.5 | 59.9 |
| MDTrack-U | 76.3 | 61.1 |
RGBT234¶
| 方法 | MPR↑ | MSR↑ |
|---|---|---|
| STTrack | 89.8 | 66.7 |
| MDTrack-S | 93.0 | 70.5 |
关键发现¶
- MDTrack-S 和 MDTrack-U 在所有 5 个基准上均达 SOTA
- 统一模态训练(MDTrack-U)性能接近甚至超过模态专属训练
- MoE 融合比统一融合提升 2-3% Pr,双 SSM 比单 SSM 提升 1-2% AUC
亮点与洞察¶
- MoE 用于多模态跟踪融合 的思路很自然——不同传感器模态确实需要不同的处理策略
- 解耦时序传播 避免了 RGB 外观变化和 X 模态信号混淆
-
MDTrack-U 作为统一模型能处理所有模态组合,实用价值高
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
- 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力
局限性 / 可改进方向¶
- 专家数量固定为 4,新增模态需要扩展专家库
- SSM 复杂度虽线性但增加了模型参数量
- 未测试三模态或更多模态的场景
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
评分¶
- 新颖性: ⭐⭐⭐⭐ MoE 融合 + 双 SSM 解耦时序设计合理且有效
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个基准 + S/U 两种训练模式 + 消融
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,方法描述系统
- 价值: ⭐⭐⭐⭐ 为多模态跟踪提供了灵活且有效的统一框架