Online Segment Any 3D Thing as Instance Tracking¶
会议: NeurIPS 2025
arXiv: 2512.07599
代码: https://github.com/AutoLab-SAI-SJTU/AutoSeg3D
领域: 3D视觉
关键词: 在线3D实例分割, 实例跟踪, 视觉基础模型, 时序建模, 空间一致性
一句话总结¶
将在线3D实例分割重新建模为实例跟踪问题(AutoSeg3D),通过长期记忆进行实例关联、短期记忆进行实例更新、以及空间一致性学习缓解VFM过分割,在ScanNet200上超越ESAM 2.8 AP并保持实时性。
研究背景与动机¶
在线、实时、细粒度的3D实例分割是具身智能体感知和理解环境的基础能力。近期方法利用SAM等视觉基础模型(VFM)预测2D分割结果,再通过深度信息提升到3D超点表示。然而,现有pipeline存在两个核心问题:
缺乏时序建模:当前方法简单拼接跨帧的全局点特征,忽略了实例级别的时序推理,VFM产生的过分割问题无法在时序维度上得到有效纠正
VFM过分割:SAM等模型经常将一个实例分割成多个相邻mask片段,后处理的NMS只能部分修正这些错误,同时还可能丢失有效信息
本文的核心insight来自经典多目标跟踪(MOT)和视频实例分割中维持时序一致性的思想:通过显式维护和演化实例特定表示来跨帧传播语义丰富的实例信息。同时,受大脑互补学习系统启发(海马体快速形成情景记忆vs新皮层巩固为持久表达),将框架分解为长期记忆和短期记忆两个互补模块。
方法详解¶
整体框架¶
AutoSeg3D是一个跟踪中心的在线3D分割框架,由三个轻量级模块组成:(1) 长期记忆(LTM)通过匈牙利分配和置信度门控亲和矩阵进行跨帧实例关联;(2) 短期记忆(STM)通过距离感知跨帧注意力注入即时时序上下文;(3) 空间一致性学习(SCL)在推理时合并高亲和度mask片段,训练时使用一对多监督。
关键设计¶
-
Long-Term Memory (LTM): 维护一个有界的track bank。对每一帧的实例segment和已有tracklet,计算外观亲和度(embedding点积)和几何亲和度(BBox IoU经MLP映射),融合后通过softmax归一化得到匹配概率矩阵M,再用sigmoid置信度门C进行加权得到最终亲和度A=M·C。使用匈牙利算法求解一对一最优匹配。匹配成功的tracklet通过加权平均更新embedding和BBox(权重为track年龄α)。未匹配的segment初始化新tracklet,超时未匹配的tracklet退入固定容量缓冲队列,后续帧可从中恢复长时间遮挡后重新出现的实例。
-
Short-Term Memory (STM): 使用距离感知注意力机制来融合相邻帧信息。关键设计是在标准注意力的softmax中减去一个距离惩罚项diag(τ)·D,其中D是实例质心间的欧氏距离矩阵,τ是每个query通过线性层预测的自适应感受野尺度——大τ抑制远距离注意力促进局部精细化,小τ保留全局上下文。这样既避免了全局cross-attention引入的背景噪声,又能根据每个实例的需求自适应调节时序融合范围。
-
Spatial Consistency Learning (SCL): 包含两个子组件。推理时的Learning-Based Mask Integration (LMI):复用LTM中的亲和度计算模块,对同一帧内的mask片段计算pairwise亲和度,通过层次聚类将亲和度超过阈值δ的片段合并,在合并后的mask上重新pool特征。训练时的Instance Consistency Mask Supervision (ICMS):对每个ground-truth实例,找到所有overlap>50%的fragment query组成集合,用同一个GT标签监督所有fragment(一对多监督)。为同时保留fragment选择能力,采用双分支decoder:第一分支启用self-attention+一对一监督保持选择能力,第二分支关闭self-attention+一对多监督增强鲁棒性。双分支机制仅在训练时激活,推理无额外开销。
损失函数 / 训练策略¶
总损失为 L = L_seg + β_ltm·L_ltm + β_agg·L_agg: - L_seg = L_{1:1} + λ·L_{1:N} + γ·L_bg(分割损失,含一对一、一对多、背景惩罚) - L_ltm = L_match + β_conf·L_conf(匹配损失+置信度门控的BCE损失) - L_agg = BCE正负样本对的亲和度预测损失
训练分两阶段:先在ScanNet200-25k单视图上训练感知模型,再在RGB-D序列上微调(每场景随机采样8帧)。使用AdamW优化器,学习率0.0001,权重衰减0.05,batch size 4,单A100 GPU。
实验关键数据¶
主实验¶
| 数据集 | 指标 | AutoSeg3D | ESAM (ICLR'25) | 提升 |
|---|---|---|---|---|
| ScanNet200 (SAM) | AP | 45.5 | 42.2 | +3.3 |
| ScanNet200 (SAM) | AP50 | 66.7 | 63.7 | +3.0 |
| ScanNet200 (FastSAM) | AP | 46.2 | 43.4 | +2.8 |
| ScanNet | AP | 43.4 | 41.6 | +1.8 |
| ScanNet | AP50 | 62.5 | 59.6 | +2.9 |
| SceneNN (zero-shot) | AP50 | 53.6 | 52.2 | +1.4 |
| 3RScan (zero-shot) | AP50 | 32.4 | 31.2 | +1.2 |
保持与ESAM相同的实时FPS (0.7 for SAM, 10.1 for FastSAM)。
消融实验¶
| 配置 | AP | AP50 | AP25 | 说明 |
|---|---|---|---|---|
| Baseline (无所有模块) | 41.6 | 62.9 | 78.7 | - |
| + LTM | 44.1 | 65.8 | 80.7 | 实例关联最关键,+2.5 AP |
| + STM | 42.9 | 63.8 | 80.0 | 短期上下文有效,+1.3 AP |
| + LTM + STM | 44.8 | 66.7 | 81.0 | 两者互补 |
| + LTM + STM + ICMS | 45.6 | 66.9 | 81.2 | 一对多监督有效 |
| + LTM + STM + LMI | 45.5 | 67.0 | 81.3 | mask合并有效 |
| Full (all) | 46.2 | 67.9 | 81.7 | 所有组件协同 |
关键发现¶
- LTM贡献最大(+2.5 AP),说明实例关联是在线3D分割中最被忽视的关键环节
- STM的距离感知注意力很重要:若不加距离惩罚,全局cross-attention会因背景query的无关关联导致性能退化
- SCL中的LMI和ICMS各自独立贡献约0.7-0.8 AP,且二者可叠加
- 在零样本迁移(ScanNet200训练→SceneNN/3RScan评估)中也有稳定提升,验证泛化性
亮点与洞察¶
- 将在线3D分割重新建模为实例跟踪问题的视角非常有价值,自然地引入时序一致性
- 受大脑互补学习系统(海马体+新皮层)启发设计LTM+STM,分离长时关联和短时更新
- SCL的双分支训练策略巧妙:一对多监督增强鲁棒性的同时保留一对一的fragment选择能力
- 置信度门控的匈牙利匹配比朴素匹配更鲁棒,能抑制虚假关联
- 整个框架轻量级,不增加推理延迟
局限与展望¶
- 依赖VFM(SAM/FastSAM)的2D分割质量,若2D mask质量差则上限受限
- LTM的缓冲队列容量固定,对于非常长的序列可能丢失历史信息
- STM仅利用前一帧信息,可考虑扩展为多帧短期记忆
- 当前仅测试了class-agnostic设置,开放词汇的语义级3D分割未涉及
相关工作与启发¶
- 与ESAM (ICLR'25)的核心区别:ESAM缺乏实例级时序建模,仅通过NMS后处理
- MOT领域的MOTR、TrackFormer启发了用query做时序传播的思想
- STM的距离感知注意力类似Sparse4D中的空间注意力门控
- SCL的一对多监督策略与目标检测中的one-to-many label assignment思想一脉相承
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [NeurIPS 2025] TAPIP3D: Tracking Any Point in Persistent 3D Geometry
- [ICCV 2025] SAS: Segment Any 3D Scene with Integrated 2D Priors
- [ICCV 2025] WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images
- [CVPR 2025] Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking
- [ICCV 2025] TAPNext: Tracking Any Point (TAP) as Next Token Prediction