跳转至

Tracking and Segmenting Anything in Any Modality

会议: AAAI 2026
arXiv: 2511.19475
代码: 有
领域: 分割 / 视频理解
关键词: 统一跟踪分割, 任意模态, 混合专家, 多任务学习, 通用模型

一句话总结

SATA提出了一个统一的跟踪与分割框架,通过解耦混合专家(DeMoE)机制建模跨模态共享知识和特有信息,并引入任务感知多目标跟踪(TaMOT)管线统一所有任务输出,在18个跟踪和分割benchmark上展现了优越性能。

研究背景与动机

领域现状:跟踪和分割是视频理解的基础任务。现有方法通常使用专用架构或模态特定参数来处理不同的子任务(如VOT、VOS、MOT、VIS等),限制了泛化性和可扩展性。

现有痛点:(1)不同模态(RGB、红外、深度等)之间存在分布差距,直接共享参数效果不好;(2)不同任务(跟踪 vs 分割、单目标 vs 多目标)之间存在特征表示差距,导致跨任务知识共享困难;(3)现有尝试统一这些任务的方法忽略了上述两个gap。

核心矛盾:要构建真正的通用模型(generalist model),必须同时处理跨模态分布差异和跨任务表示差异。

本文目标:构建一个统一框架处理广泛的跟踪和分割子任务以及任意模态输入。

切入角度:(1)用解耦MoE分离跨模态共享和特有的知识;(2)用统一的实例集合输出格式消除任务间的输出差异。

核心 idea:DeMoE将统一表示学习解耦为跨模态共享知识和模态特有信息的建模,TaMOT将所有任务输出统一为带校准ID的实例集合。

方法详解

整体框架

输入任意模态的视频序列,通过骨干网络提取特征,DeMoE自适应地分配共享和模态特有的专家进行特征增强,然后通过统一的解码器生成跟踪/分割结果。TaMOT管线统一所有子任务的输出格式为实例集合+ID信息。

关键设计

  1. 解耦混合专家(DeMoE):

    • 功能:在统一框架中处理不同模态的分布差异
    • 核心思路:将标准MoE解耦为两组专家:共享专家学习跨模态不变的知识(如运动模式、物体形状),模态特有专家学习各模态独有的特征。路由器根据输入模态动态分配专家权重,使模型在保持灵活性的同时增强泛化
    • 设计动机:直接共享所有参数会因模态差异导致冲突;完全独立参数又无法利用跨模态共性;DeMoE在两者之间取得平衡
  2. 任务感知多目标跟踪(TaMOT)管线:

    • 功能:统一所有跟踪/分割子任务的输出格式
    • 核心思路:将所有任务的输出定义为统一的实例集合,每个实例包含空间位置(bbox/mask)和时序ID信息。通过任务代码(task token)区分不同子任务的推理模式。训练时用统一的实例匹配和ID关联损失
    • 设计动机:不同子任务的输出格式差异(单目标只有mask、多目标有bbox+ID等)阻碍了多任务统一训练,TaMOT通过格式统一解决
  3. 多模态多任务联合训练:

    • 功能:在一个模型中同时学习多种模态和任务
    • 核心思路:使用混合数据集训练策略,每个batch包含不同模态和任务的数据。DeMoE的路由器自动根据输入分配专家,TaMOT的任务代码指导解码。损失函数是各任务损失的加权和
    • 设计动机:联合训练允许跨任务知识迁移,DeMoE确保不同模态/任务不会相互干扰

损失函数 / 训练策略

联合训练采用分割损失(Dice + BCE)、检测损失(L1 + GIoU)和ID关联损失。使用任务代码区分不同子任务。

实验关键数据

主实验

任务 Benchmark数量 SATA排名 说明
单目标跟踪 多个 顶尖 RGB+红外+深度
多目标跟踪 多个 顶尖 统一ID管理
视频目标分割 多个 顶尖 半监督/无监督
视频实例分割 多个 顶尖 检测+分割+跟踪
总计 18个 全面领先 通用模型优势

消融实验

配置 效果 说明
Full SATA 最佳 DeMoE + TaMOT协同
标准MoE替代DeMoE 下降 共享/特有未解耦
独立模态训练 下降 无跨模态知识迁移
无TaMOT 各任务分别下降 输出格式不统一阻碍知识共享

关键发现

  • 在18个benchmark上都取得顶尖或极具竞争力的结果,验证了通用模型的可行性
  • DeMoE的解耦设计比标准MoE有明显优势,证明了跨模态共享/特有知识分离的重要性
  • TaMOT的统一输出格式有效缓解了多任务训练中的任务特有知识退化问题

亮点与洞察

  • 真正的通用跟踪分割模型:一个模型覆盖18个benchmark、多种模态和多种任务,展示了构建视频理解基础模型的可能性
  • DeMoE的解耦思路:将共享和特有知识显式分离的设计可以迁移到其他多模态/多任务学习场景
  • TaMOT的格式统一:将异构任务输出统一为实例集合是一个优雅的工程贡献

局限与展望

  • 18个benchmark的训练数据量很大,训练成本高
  • DeMoE的专家数量和路由策略仍需手动设计
  • 对于极端长视频或实时应用的效率未讨论
  • 模型规模可能限制在嵌入式设备上的部署

相关工作与启发

  • vs SAM 2:SAM 2在视频分割上很强但不做跟踪ID管理,SATA统一了跟踪和分割
  • vs UniTrack:UniTrack尝试统一跟踪但不含分割,SATA范围更广
  • vs OneTracker:OneTracker支持多模态跟踪但不含分割,SATA更全面

评分

  • 新颖性: ⭐⭐⭐⭐ DeMoE解耦设计新颖,通用框架完整
  • 实验充分度: ⭐⭐⭐⭐⭐ 18个benchmark的全面评估非常充分
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对统一视频理解模型有重要推动

相关论文