Tracking and Segmenting Anything in Any Modality¶

会议: AAAI 2026
arXiv: 2511.19475
代码: 有
领域: 分割 / 视频理解
关键词: 统一跟踪分割, 任意模态, 混合专家, 多任务学习, 通用模型

一句话总结¶

SATA提出了一个统一的跟踪与分割框架，通过解耦混合专家（DeMoE）机制建模跨模态共享知识和特有信息，并引入任务感知多目标跟踪（TaMOT）管线统一所有任务输出，在18个跟踪和分割benchmark上展现了优越性能。

研究背景与动机¶

领域现状：跟踪和分割是视频理解的基础任务。现有方法通常使用专用架构或模态特定参数来处理不同的子任务（如VOT、VOS、MOT、VIS等），限制了泛化性和可扩展性。

现有痛点：（1）不同模态（RGB、红外、深度等）之间存在分布差距，直接共享参数效果不好；（2）不同任务（跟踪 vs 分割、单目标 vs 多目标）之间存在特征表示差距，导致跨任务知识共享困难；（3）现有尝试统一这些任务的方法忽略了上述两个gap。

核心矛盾：要构建真正的通用模型（generalist model），必须同时处理跨模态分布差异和跨任务表示差异。

本文目标：构建一个统一框架处理广泛的跟踪和分割子任务以及任意模态输入。

切入角度：（1）用解耦MoE分离跨模态共享和特有的知识；（2）用统一的实例集合输出格式消除任务间的输出差异。

核心 idea：DeMoE将统一表示学习解耦为跨模态共享知识和模态特有信息的建模，TaMOT将所有任务输出统一为带校准ID的实例集合。

方法详解¶

整体框架¶

输入任意模态的视频序列，通过骨干网络提取特征，DeMoE自适应地分配共享和模态特有的专家进行特征增强，然后通过统一的解码器生成跟踪/分割结果。TaMOT管线统一所有子任务的输出格式为实例集合+ID信息。

关键设计¶

解耦混合专家（DeMoE）:
- 功能：在统一框架中处理不同模态的分布差异
- 核心思路：将标准MoE解耦为两组专家：共享专家学习跨模态不变的知识（如运动模式、物体形状），模态特有专家学习各模态独有的特征。路由器根据输入模态动态分配专家权重，使模型在保持灵活性的同时增强泛化
- 设计动机：直接共享所有参数会因模态差异导致冲突；完全独立参数又无法利用跨模态共性；DeMoE在两者之间取得平衡
任务感知多目标跟踪（TaMOT）管线:
- 功能：统一所有跟踪/分割子任务的输出格式
- 核心思路：将所有任务的输出定义为统一的实例集合，每个实例包含空间位置（bbox/mask）和时序ID信息。通过任务代码（task token）区分不同子任务的推理模式。训练时用统一的实例匹配和ID关联损失
- 设计动机：不同子任务的输出格式差异（单目标只有mask、多目标有bbox+ID等）阻碍了多任务统一训练，TaMOT通过格式统一解决
多模态多任务联合训练:
- 功能：在一个模型中同时学习多种模态和任务
- 核心思路：使用混合数据集训练策略，每个batch包含不同模态和任务的数据。DeMoE的路由器自动根据输入分配专家，TaMOT的任务代码指导解码。损失函数是各任务损失的加权和
- 设计动机：联合训练允许跨任务知识迁移，DeMoE确保不同模态/任务不会相互干扰

损失函数 / 训练策略¶

联合训练采用分割损失（Dice + BCE）、检测损失（L1 + GIoU）和ID关联损失。使用任务代码区分不同子任务。

实验关键数据¶

主实验¶

任务	Benchmark数量	SATA排名	说明
单目标跟踪	多个	顶尖	RGB+红外+深度
多目标跟踪	多个	顶尖	统一ID管理
视频目标分割	多个	顶尖	半监督/无监督
视频实例分割	多个	顶尖	检测+分割+跟踪
总计	18个	全面领先	通用模型优势

消融实验¶

配置	效果	说明
Full SATA	最佳	DeMoE + TaMOT协同
标准MoE替代DeMoE	下降	共享/特有未解耦
独立模态训练	下降	无跨模态知识迁移
无TaMOT	各任务分别下降	输出格式不统一阻碍知识共享

关键发现¶

在18个benchmark上都取得顶尖或极具竞争力的结果，验证了通用模型的可行性
DeMoE的解耦设计比标准MoE有明显优势，证明了跨模态共享/特有知识分离的重要性
TaMOT的统一输出格式有效缓解了多任务训练中的任务特有知识退化问题

亮点与洞察¶

真正的通用跟踪分割模型：一个模型覆盖18个benchmark、多种模态和多种任务，展示了构建视频理解基础模型的可能性
DeMoE的解耦思路：将共享和特有知识显式分离的设计可以迁移到其他多模态/多任务学习场景
TaMOT的格式统一：将异构任务输出统一为实例集合是一个优雅的工程贡献

局限与展望¶

18个benchmark的训练数据量很大，训练成本高
DeMoE的专家数量和路由策略仍需手动设计
对于极端长视频或实时应用的效率未讨论
模型规模可能限制在嵌入式设备上的部署

评分¶

新颖性: ⭐⭐⭐⭐ DeMoE解耦设计新颖，通用框架完整
实验充分度: ⭐⭐⭐⭐⭐ 18个benchmark的全面评估非常充分
写作质量: ⭐⭐⭐⭐ 框架描述清晰
价值: ⭐⭐⭐⭐⭐ 对统一视频理解模型有重要推动