跳转至

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

会议: CVPR 2026
arXiv: 2603.06572
代码: 无
领域: 3D视觉 / 点云语义分割
关键词: Incremental Few-Shot, 3D Point Cloud Segmentation, Prototype Enrichment, Background Mining, Class-Agnostic Segmentation

一句话总结

SCOPE 提出一种即插即用的背景引导原型增强框架,利用基础训练场景中背景区域的伪实例构建原型库,在增量阶段通过检索+注意力融合增强少样本原型,无需重训骨干或增加参数即可在 ScanNet/S3DIS 上显著提升新类 IoU(最高 +6.98%)并保持低遗忘。

研究背景与动机

领域现状

3D 点云语义分割是机器人、自动驾驶、AR/VR 等具身感知任务的基础。全监督方法(PointNet、PointNet++、DGCNN、Point Transformer 等)在充足标注下表现出色,但实际部署面临两个约束:(1) 新类别随环境变化持续涌现;(2) 新类出现时只有极少标注。

现有范式各有局限:

  • 少样本分割(AttMPTI 等):能从少量样本学习,但无法保留已学知识
  • 泛化少样本 3D 分割(CAPL、GW):同时识别基类和新类,但只允许一次更新且假设预知未来类别
  • 类增量 3D 分割(LwF、EWC、CLIMB-3D、GUA):支持多次更新但需要大量标注,少标注下严重退化
  • 增量少样本 3D 分割(HIPO):最接近的设定,但性能仍低于最强泛化少样本基线

核心痛点

直接将上述方法应用于增量少样本场景效果不佳——增量方法在少样本下过拟合导致灾难性遗忘,少样本方法缺乏多阶段递进能力。关键被忽略的线索是:基础训练场景的背景区域中经常包含未标注的物体结构,这些结构很可能对应未来的新类别。

本文切入角度

作者观察到背景区域被粗暴地压缩为单一标签,编码器无法区分其中的物体边界,但这些区域蕴含丰富的几何和语义信号。SCOPE 的核心思路是:用类无关分割模型从背景中挖掘高置信度伪实例,构建可复用的原型库,在新类到来时检索并融合相关背景原型来增强少样本表征——不修改骨干、不引入额外参数、不需重训练。

方法详解

整体框架

SCOPE 是一个三阶段框架:

  1. 基础训练(Base Training):在全标注基类数据上训练编码器 \(\Phi = \mathcal{H} \circ \Phi'\)(骨干 + 投影头),学习基类原型 \(\mathbf{P}^b\),通过点特征与原型的相似度进行分类
  2. 场景上下文化(Scene Contextualisation):对基类场景的背景区域应用类无关分割模型 \(\Theta\),提取伪实例构建实例原型库(IPB)
  3. 增量类注册(Incremental Class Registration):新类到来时,用少样本构建初始原型,通过 CPR 模块从 IPB 检索相关背景原型,再经 APE 模块注意力融合得到增强原型

整个框架是即插即用的——可以无缝嵌入任何基于原型的 3D 分割方法,不改变骨干或训练流程。

关键设计 1:实例原型库(IPB)

动机:基类训练后,编码器将所有未知区域压缩为背景,无法区分其中的物体。直接用编码器提取背景特征只能得到粗糙、无判别力的嵌入。

解决方案:引入现成的类无关分割模型(如 Mask3D),对每个基类场景生成伪实例 mask 及置信度分数:

\[\Theta(\mathbf{X}_i) = \{(\hat{\mathbf{M}}_{i,j}, s_{i,j})\}_{j=1}^{Q_i}\]

仅保留属于背景区域且置信度超过阈值 \(\tau\) 的 mask:

\[\mathbf{M}_i^{bg} = \{\hat{\mathbf{M}}_{i,j} \mid \hat{\mathbf{M}}_{i,j} \subseteq \mathbf{X}_i[y_i^b = -1],\; s_{i,j} > \tau\}\]

对每个被保留的伪 mask,用编码器提取点特征后做 masked average pooling 得到实例原型 \(\mu_{i,j} \in \mathbb{R}^D\),汇集所有场景的伪实例原型构成 IPB:

\[\mathcal{P} = \bigcup_i \bigcup_j \{\mu_{i,j}\}\]

IPB 在基类训练后构建一次、全程冻结,不引入额外优化或内存开销。类无关模型仅离线使用一次后即丢弃。

关键设计 2:上下文原型检索(CPR)

当增量阶段 \(t\) 引入新类 \(c\) 时,先从 \(K\) 个支持样本的标注点做 masked average pooling 得到初始少样本原型 \(p^c\)

CPR 模块计算 \(p^c\) 与 IPB 中每个背景原型 \(\mu_b\) 的余弦相似度:

\[\sigma_b^c = \frac{(p^c)^\top \mu_b}{\|p^c\|_2 \|\mu_b\|_2}\]

取相似度最高的 \(R\) 个原型组成类特定的上下文池 \(\mathcal{B}^c = \{\mu_r^c\}_{r=1}^R\)。这一步为每个新类提供语义对齐的辅助结构线索。

关键设计 3:注意力原型增强(APE)

检索到的背景原型并非同等有用——部分可能噪声大或物体性弱。APE 用无参数的交叉注意力机制选择性融合:

  1. 对少样本原型和检索原型做 \(\ell_2\) 归一化
  2. 以少样本原型为 query、背景原型为 key/value 做 scaled dot-product cross-attention(无可学习参数/投影头),生成每个检索原型的注意力权重
  3. 加权求和得到上下文增强表征 \(h^c\)
  4. 最终增强原型通过线性插值融合:
\[\tilde{p}^c = \lambda \cdot p^c + (1 - \lambda) \cdot h^c, \quad \lambda \in [0, 1]\]

所有已知类的原型拼接为统一分类器 \(\tilde{\mathbf{P}}^{\leq t} = [\mathbf{P}^b, \ldots, \tilde{\mathbf{P}}^t]\),通过点特征与原型矩阵的内积做逐点预测。

训练策略

  • 基础阶段:标准全监督训练骨干+原型
  • 增量阶段:骨干完全冻结,仅从少样本支持集构建/增强类原型,无需任何微调或额外训练
  • 类无关分割模型离线运行一次后丢弃
  • IPB 构建一次后全程冻结
  • CPR 和 APE 均为非参数操作,无需梯度更新

实验关键数据

实验设置

  • 数据集:ScanNet(1513 场景、20 类)和 S3DIS(272 场景、13 类)
  • 划分:6 个最少出现的类作为新类,其余为基类,反映长尾分布
  • 设置:增量少样本(IFS-PCS),\(K=5\)\(K=1\),共 3 个增量阶段
  • 评估指标:mIoU(全类)、mIoU-B(基类)、mIoU-N(新类)、HM(基类新类调和均值)、mIoU-I(阶段平均 mIoU)、FPP(遗忘百分点,越低越好)

主实验:ScanNet(IFS-PCS)

方法 Venue K=5 mIoU K=5 mIoU-N K=5 HM K=5 mIoU-I K=5 FPP↓ K=1 mIoU K=1 mIoU-N K=1 HM
GW ICCV'23 34.27 16.88 23.94 37.67 1.49 33.53 14.11 20.99
CAPL CVPR'22 31.73 14.75 21.36 34.55 -0.65 30.48 10.38 16.28
HIPO CVPR'25 14.95 7.44 11.50 27.63 17.60 11.94 2.91 4.86
SCOPE 36.52 23.86 30.38 38.91 1.27 34.78 18.09 25.12

主实验:S3DIS(IFS-PCS)

方法 Venue K=5 mIoU K=5 mIoU-N K=5 HM K=5 mIoU-I K=5 FPP↓ K=1 mIoU K=1 mIoU-N K=1 HM
GW ICCV'23 57.71 39.42 51.29 63.69 0.04 51.73 26.62 39.02
CAPL CVPR'22 55.52 35.01 47.27 63.69 0.64 49.16 21.25 32.79
HIPO CVPR'25 27.73 18.36 24.76 42.01 35.96 23.34 16.34 21.25
SCOPE 59.41 43.03 54.25 65.24 -0.03 55.36 34.32 46.73

消融实验(ScanNet, K=5)

变体 mIoU mIoU-N HM mIoU-I FPP↓
GW 基线(仅支持集) 34.27 16.88 23.94 37.67 1.49
+ CPR(均值聚合) 35.68 22.12 28.91 38.02 1.50
+ APE(完整框架) 36.52 23.86 30.38 38.91 1.27

关键发现

  1. 新类提升显著:在 ScanNet K=5 下,SCOPE 比最强基线 GW 的 mIoU-N 提升 +6.98%,HM 提升 +6.44%;在 S3DIS K=5 下 mIoU-N 提升 +3.61%
  2. 遗忘极低:S3DIS 上 FPP 仅 -0.03(甚至略有提升),ScanNet 上 FPP=1.27,低于大多数基线
  3. CPR 贡献最大:消融中 CPR 单独带来 mIoU-N +5.24 的提升,APE 再增加 +1.74
  4. 伪 mask vs. GT mask 差距小:用 GT mask 构建 IPB(24.77 mIoU-N)仅比伪 mask(23.86)高 0.91,说明置信度过滤和 APE 有效抑制了噪声
  5. 计算零开销:增量阶段运行时间与基线 GW 几乎相同(18.60s vs. 18.58s),IPB 存储 <1MB
  6. 超参数鲁棒\(\tau\)\(R\)\(\lambda\) 在合理范围内性能稳定,最佳 \(\tau=0.8\), \(R=40\), \(\lambda\) 偏小更佳

亮点与洞察

  1. 背景即宝藏:这是本文最核心的 insight——基类训练场景的背景区域包含未来新类的物体结构,这些信息被传统方法完全忽略。通过类无关分割模型挖掘这些伪实例,可以不依赖未来类别信息就构建有用的可迁移原型
  2. 即插即用设计:SCOPE 不修改骨干、不引入可学习参数、不需要额外训练,可以无缝嵌入任何基于原型的分割方法,实用性极强
  3. 非参数注意力的巧妙运用:APE 用无参数交叉注意力做选择性融合,既避免了引入需要训练的模块(违反少样本学习的最小适应原则),又能有效抑制噪声检索
  4. 问题定义清晰:论文系统梳理了 FS / GFS / CI / IFS 四种范式的关系,并指出 IFS-PCS 在 3D 领域的空白,问题动机论证充分

局限性与可改进方向

  1. 依赖类无关分割模型质量:IPB 的质量取决于 Mask3D 等模型的伪 mask 质量;虽然实验显示影响有限,但在复杂场景或非室内环境下可能退化
  2. 仅验证室内场景:实验仅在 ScanNet 和 S3DIS 两个室内数据集上进行,未验证大规模室外场景(如自动驾驶)的泛化能力
  3. IPB 构建依赖全量基类数据:需要遍历所有基类训练场景来构建原型库,数据集更大时存储和检索成本可能上升
  4. 检索策略较简单:CPR 仅用余弦相似度 top-R 检索,更复杂的检索策略(如基于图结构或层次化检索)可能进一步提升效果
  5. 新类之间无交互:每个新类独立检索和增强,未考虑增量阶段中多个新类之间的关系建模
  6. \(\lambda\) 为固定超参:融合权重全局固定,自适应地为每个类确定不同的融合比例可能更优

相关工作与启发

  • GW(ICCV 2023):最强泛化少样本 3D 分割基线,SCOPE 在其基础上作为即插即用模块提升
  • CAPL(CVPR 2022):引入共现先验的泛化少样本方法
  • HIPO(CVPR 2025):双曲原型的增量少样本 3D 分割,是本设定下最直接的竞争者
  • Mask3D:类无关 3D 实例分割模型,被 SCOPE 用于离线伪 mask 生成
  • 启发:背景挖掘的思路可推广到 2D 场景、视频分割、开放词汇分割等领域——任何"未知类隐藏在背景中"的场景都可借鉴

评分

维度 分数 (1-10) 说明
创新性 7 背景原型挖掘的 insight 新颖,但各子模块(原型检索、注意力加权)本身比较标准
技术深度 6 方法简洁有效但技术复杂度不高,核心贡献在于问题发现和系统设计
实验充分性 8 两个数据集、两种 shot 设置、多种基线对比、完整消融和超参分析,较为充分
写作质量 8 问题定义清晰、动机论证充分、框架图清晰、实验组织有条理
实用价值 8 即插即用、零额外计算/参数、代码可期,落地性强
综合 7.5 切入角度新颖、方法简洁有效、实验全面,是增量少样本 3D 分割方向的扎实工作

相关论文