Sketchy Bounding-Box Supervision for 3D Instance Segmentation¶

会议: CVPR 2025
arXiv: 2505.16399
代码: https://github.com/dengq7/Sketchy-3DIS
领域: 3D视觉
关键词: 弱监督3D实例分割, 不精确包围盒, 伪标签, 粗到精分割, 点云理解

一句话总结¶

提出 Sketchy-3DIS 框架，首次将不精确（sketchy）的3D包围盒标注引入弱监督3D实例分割，通过自适应 box-to-point 伪标签生成器和粗到精实例分割器的联合训练，在 ScanNetV2 和 S3DIS 上达到 SOTA，甚至超越部分全监督方法。

研究背景与动机¶

领域现状：3D实例分割是点云场景理解的核心任务，当前主流方法（如 SPFormer、Mask3D）依赖逐点标注，但在 ScanNet 上标注一个场景需要约 22.3 分钟，而标注包围盒只需 1.93 分钟。因此近年来大量工作采用包围盒作为弱监督信号。

现有痛点：现有的包围盒弱监督方法（Box2Mask、GaPro、BSNet 等）都假设标注的包围盒是精确且紧凑的。但在实际标注中，获得完全精确的3D包围盒非常困难——标注者通常会引入缩放偏差、平移偏差和旋转偏差。实验表明 GaPro 在使用 scaled sketchy box 时性能大幅下降。

核心矛盾：实际场景中包围盒不可能完全精确，但现有方法对包围盒精度高度敏感。不精确包围盒会导致大量点被错误分配到邻近实例，产生噪声伪标签，进而严重影响分割质量。

本文目标：设计一个对包围盒噪声具有鲁棒性的弱监督3D实例分割框架，能够(1)从不精确包围盒中生成高质量伪标签，(2)基于伪标签训练出高精度分割器。

切入角度：作者观察到不精确包围盒的核心问题在于重叠区域的点分配。如果能学习点与包围盒之间的相似性，就可以自适应地将重叠区域中的点分配到正确的实例。

核心 idea：联合训练一个自适应伪标签生成器（将 sketchy box 转化为紧凑 box 并生成点级伪标签）和一个粗到精实例分割器（通过多级注意力逐步细化实例），两者互相促进，逐步提升分割质量。

方法详解¶

整体框架¶

输入为一个3D点云场景及其对应的一组 sketchy 包围盒标注。首先通过 3D U-Net 骨干网络提取点特征，然后进入两个并行分支：(1) 自适应 box-to-point 伪标签生成器，将粗糙的包围盒标注转化为精细的点级实例标签；(2) 粗到精实例分割器，利用 Transformer 查询机制预测实例。最终通过双边匹配将伪标签与预测实例配对，联合训练两个组件。推理时只需要骨干网络和分割器。

关键设计¶

Sketchy Bounding Box 生成:
- 功能：模拟实际标注中不精确的包围盒
- 核心思路：对真实包围盒施加三种扰动——缩放（\(\alpha=5\%\)）、平移（\(\beta=5\%\)）、旋转（\(\gamma=5°\)），通过组合这三种基础操作生成四种不同"sketchy程度"的包围盒（\(S_1\)到\(S_4\)）。扰动幅度的设置基于实际标注偏差的合理范围。
- 设计动机：提供一个可控的实验框架来研究标注噪声对弱监督方法的影响
自适应 Box-to-Point 伪标签生成器:
- 功能：将不精确的包围盒标注转化为高质量的点级实例伪标签
- 核心思路：分三步处理不同类型的点。(a) 包围盒外的点直接标记为背景。(b) 对于仅位于单个包围盒内的点，通过特征空间余弦相似度与坐标空间距离的乘积 \(s_{p,B} = \cos(f_p, f_B) \times e^{-|c_B c_p|}\) 来过滤背景点。(c) 对于位于多个包围盒重叠区域的点，先移除重叠部分取可靠点（只在一个 box 内的点），用这些可靠点的特征代替 box 特征，然后通过 MLP 学习点到各 box 的分配概率，用交叉熵损失 \(L_{pl}\) 监督。
- 设计动机：不精确包围盒最大的问题是重叠区域扩大，导致更多点被错误分配。通过学习相似性而非硬规则，可以自适应地处理不同程度的不精确标注。
粗到精实例分割器（Multi-level Attention Block）:
- 功能：从全局到局部逐步细化实例预测
- 核心思路：实例查询先与全场景点特征做全局交叉注意力得到粗实例，再分别与可靠区域特征（\(F^{rel}\)，由预测 box 与 mask box 的交集加权）和核心区域特征（\(F^{un}\)，由缩放后的核心 box 与 mask box 交集）做局部注意力。六层堆叠的 Multi-level Attention Block 逐步精细化。可靠区域由预测框和 mask 框的 IoU 加权：\(F^{rel} = \sigma(F, M \odot e^{IoU(B_{pred}, B_{mask})})\)。
- 设计动机：弱监督中粗标签导致初始预测不精确，通过分层次的从全局到核心区域的注意力机制，让查询逐步聚焦到目标核心区域，提升边界精度。

损失函数 / 训练策略¶

总损失 \(L = L_{pl} + L_{seg}\)，其中伪标签损失 \(L_{pl}\) 是可靠点分配的交叉熵损失，实例分割损失 \(L_{seg}\) 包含分类损失（交叉熵）、mask 损失（BCE + Dice）和 box 损失（L1 + core-box MSE）。使用匈牙利匹配建立伪标签与预测实例的对应关系。训练采用 AdamW 优化器，学习率 0.0002，权重衰减 0.05，在单个 RTX 3090 上训练。联合训练策略让伪标签质量和分割器性能互相提升。

实验关键数据¶

主实验¶

数据集	方法	监督	AP50	AP25
ScanNetV2 Val	GaPro+SPFormer	精确box S0	70.4	79.9
ScanNetV2 Val	BSNet+SPFormer	精确box S0	72.7	83.4
ScanNetV2 Val	Sketchy-3DIS	精确box S0	68.8	83.6
ScanNetV2 Val	GaPro+SPFormer	Sketchy S1	53.5	72.2
ScanNetV2 Val	Sketchy-3DIS	Sketchy S1	65.8	83.1
S3DIS Area 5	GaPro+ISBNet	精确box S0	61.2	-
S3DIS Area 5	BSNet+ISBNet	精确box S0	64.3	-
S3DIS Area 5	Sketchy-3DIS	精确box S0	69.1	-
S3DIS Area 5	ISBNet (全监督)	Mask	65.8	-

消融实验¶

配置	AP	AP50	AP25	说明
无伪标签生成器 (Partition only)	15.9	32.2	58.5	仅空间分配，大量错误标签
+Assign (重叠区域分配)	41.8	64.8	72.3	重叠区域处理至关重要
+Similarity (背景过滤)	45.2	67.3	83.4	过滤非目标点进一步提升
Full model	46.0	68.8	83.6	完整模型
Disjoint训练 (非联合)	45.3	60.4	70.0	联合训练显著优于分开训练
Joint训练	53.4	69.1	77.5	伪标签+分割器互相促进

关键发现¶

重叠区域点分配是性能提升最关键的模块，从 32.2 提升到 64.8（AP50 提升 32.6%），因为 sketchy box 导致的重叠区域被极大扩大
在 S3DIS 上，Sketchy-3DIS 即使使用不精确标注（S0）也超过全监督 ISBNet +3.3 AP50（69.1 vs 65.8），说明精心设计的弱监督方法可以超越全监督
从 S1 到 S4 不同程度的 sketchy box，AP50 仅从 65.8 下降到 62.5（ScanNetV2），展现了良好的鲁棒性
联合训练（joint）vs 分开训练（disjoint）差距巨大：AP50 69.1 vs 60.4，验证了伪标签生成和分割器必须协同优化
Multi-level Attention Block 中全部四种注意力（Scene/Coarse/Core/Self）都有贡献，其中 Coarse 和 Core 的组合最关键

亮点与洞察¶

首次研究 sketchy box 设定：之前所有 box-supervised 方法都假设 box 精确，本文首次系统性研究了不精确标注的影响，更贴近实际场景。这个问题设定本身就有很大价值。
联合训练的互促进机制：伪标签生成器和分割器共用骨干特征，通过联合优化实现良性循环——更好的特征产生更好的伪标签，更好的伪标签训练更好的分割器。
可靠点 vs 不可靠点的分离策略：在重叠区域只用可靠点（非重叠部分）来学习分配规则，然后推广到不可靠点，避免了噪声标签的影响。这个思路可以迁移到其他弱监督任务中。

局限与展望¶

模型对于不同物体大小变化很大的场景可能效果不佳，因为 sketchy box 的扰动比例是全局统一的
只研究了模拟的 sketchy box，没有在真实标注者产生的不精确标注上验证
推理速度和计算开销没有报告，联合训练两个分支可能导致训练成本较高
可以考虑引入 SAM 等 2D 基础模型辅助处理重叠区域的歧义
扩展到 outdoor 场景（如自动驾驶）的大规模点云是一个有价值的方向

评分¶

新颖性: ⭐⭐⭐⭐ 首次研究 sketchy box 设定，问题定义有价值，但具体方法是已有技术的组合
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、多种 sketchy 程度、详细消融、可视化分析
写作质量: ⭐⭐⭐⭐ 动机清晰，框架图清楚，但部分细节描述可以更简洁
价值: ⭐⭐⭐⭐ 实用性强，不精确标注是真实需求，方法有效且代码开源