跳转至

MDTrack: Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

日期: 2026-03-10
arXiv: 2603.09287
代码: 有
领域: 视频理解 / 多模态跟踪
关键词: multi-modal tracking, MoE, SSM, Mamba, RGB-T, RGB-D, RGB-E

一句话总结

提出 MDTrack,通过 MoE(Mixture of Experts)实现模态感知融合(为 IR/Event/Depth/RGB 分配专用专家)+ 双 SSM(State Space Model)实现解耦时序传播(RGB 和 X 模态各自独立更新隐状态),在 5 个多模态跟踪基准上达到 SOTA。

研究背景与动机

  1. 领域现状: 多模态目标跟踪通过融合 RGB + 红外/事件/深度等互补模态来应对低照度、运动模糊等挑战。

  2. 现有痛点: (i) 现有方法采用统一融合策略,忽略模态间的固有差异(IR 捕获热信号 vs Event 检测快速运动 vs Depth 提供几何结构);(ii) 通过混合 token 传播时序信息,导致异质时序动态纠缠。

  3. 核心 idea: 用 MoE 让每种模态有专属专家处理融合,用双 SSM 解耦 RGB 和 X 模态的时序建模。

方法详解

模态感知融合(MoE)

  • 专家库 {E_RGB, E_T, E_E, E_D} 分别处理不同模态
  • 门控机制根据输入特征动态选 Top-2 专家
  • 加载均衡损失确保专家被合理激活
  • 专家引导的融合权重 \(F_i\) 自适应加权各模态贡献

解耦时序传播(双 SSM)

  • 两个独立 Mamba SSM 分别维护 \(h_{RGB}\)\(h_X\) 隐状态
  • 输入特征间做双向交叉注意力实现隐式信息交换
  • 时序特征通过交叉注意力注入 backbone 增强特征准确性
  • 隐状态逐帧传播,无干扰地携带各模态的长期时序信息

实验关键数据

LasHeR(RGB-T 跟踪)

方法 Pr↑ AUC↑
STTrack (AAAI'25) 76.0 60.3
MDTrack-S 76.5 61.4
SUTrack (AAAI'25) 74.5 59.9
MDTrack-U 76.3 61.1

RGBT234

方法 MPR↑ MSR↑
STTrack 89.8 66.7
MDTrack-S 93.0 70.5

关键发现

  • MDTrack-S 和 MDTrack-U 在所有 5 个基准上均达 SOTA
  • 统一模态训练(MDTrack-U)性能接近甚至超过模态专属训练
  • MoE 融合比统一融合提升 2-3% Pr,双 SSM 比单 SSM 提升 1-2% AUC

亮点与洞察

  • MoE 用于多模态跟踪融合 的思路很自然——不同传感器模态确实需要不同的处理策略
  • 解耦时序传播 避免了 RGB 外观变化和 X 模态信号混淆
  • MDTrack-U 作为统一模型能处理所有模态组合,实用价值高

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
  • 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力

局限性 / 可改进方向

  • 专家数量固定为 4,新增模态需要扩展专家库
  • SSM 复杂度虽线性但增加了模型参数量
  • 未测试三模态或更多模态的场景
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

评分

  • 新颖性: ⭐⭐⭐⭐ MoE 融合 + 双 SSM 解耦时序设计合理且有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 个基准 + S/U 两种训练模式 + 消融
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,方法描述系统
  • 价值: ⭐⭐⭐⭐ 为多模态跟踪提供了灵活且有效的统一框架