跳转至

ASSIST-3D: Adapted Scene Synthesis for Class-Agnostic 3D Instance Segmentation

会议: AAAI 2026
arXiv: 2512.09364
代码: 未开源
领域: 3d_vision
关键词: class-agnostic 3D instance segmentation, 3D scene synthesis, synthetic data, point cloud, LLM-guided layout

一句话总结

提出 ASSIST-3D 合成数据流水线,通过异构物体选择、LLM 引导的场景布局生成和仿真实点云构建三个阶段,为 class-agnostic 3D 实例分割生成高质量标注数据,显著提升模型泛化能力。

研究背景与动机

  1. Class-agnostic 3D 实例分割旨在不依赖语义类别,分割场景中所有物体实例(包括训练时未见类别),但现有方法受困于数据稀缺和 2D 分割噪声。
  2. 传统 class-aware 方法依赖预定义类别的标注,仅覆盖数十个类别,无法应对现实世界中数千种未见物体。
  3. 基于 2D 基础模型的方法(如 SAM)虽有较强泛化能力,但存在 2D 分割误差和多视图融合不一致的固有缺陷,难以可靠地转化为 3D 分割结果。
  4. 真实 3D 数据采集成本高昂,标注不完整且场景复杂度有限,直接制约了模型的数据多样性和泛化上限。
  5. 现有 3D 场景合成方法不满足需求:Holodeck 利用 LLM 选择物体导致偏向常见类别(几何多样性和上下文复杂度不足),RandomRooms 随机放置导致布局不合理。
  6. 核心洞察:数据多样性是提升 class-agnostic 分割泛化能力的关键驱动力,需同时满足几何多样性上下文复杂度布局合理性三大原则。

方法详解

整体框架

ASSIST-3D 包含三个阶段:(1) 异构物体选择 → (2) 场景布局生成 → (3) 仿真实点云构建。合成数据与真实数据 (ScanNetV2) 联合训练 Mask3D(将多分类头替换为二分类 objectness 分类器),优化目标加权合并真实和合成损失(\(\alpha=0.5\))。

关键设计 1:异构物体选择 (Heterogeneous Object Selection)

  • 使用 Objaverse 子集(50,000 个 3D 模型,800 类)作为资产库,按放置位置分为三组:\(\mathcal{O}_{\text{floor}}\)(地面物体如家具)、\(\mathcal{O}_{\text{wall}}\)(墙面物体如挂画)、\(\mathcal{O}_{\text{obj}}\)(可放于前两者之上的物体)。
  • 每个场景均匀采样 \(M_1=100\) 个地面物体和 \(M_2=50\) 个墙面物体,每个大物体上再采样 5 个小物体,共约 \(5(M_1+M_2)\) 个附加物体。
  • 通过打破常规类别共现模式来增强上下文复杂度;交替使用互补采样策略(以 0.7 概率优先选择真实数据中出现的类别)来弥补标注不完整问题。

关键设计 2:场景布局生成 (Scene Layout Generation)

  • 利用 GPT-4 推断物体间合理的空间关系(朝向和相对位置),但不直接输出绝对坐标(因 LLM 空间推理能力有限)。
  • 采用深度优先搜索 (DFS) 策略逐个放置物体:将地面离散化为均匀网格,从第一个物体开始,逐步找可行网格放置当前物体,不满足约束则回溯。
  • 在所有可行方案中选择放置物体最多的方案,墙面和表面物体也用同样流程处理。

关键设计 3:仿真实点云构建 (Realistic Point Cloud Construction)

  • 不直接从 mesh 表面采样点云(过于均匀,缺乏噪声和遮挡),而是模拟真实 SLAM 系统的采集过程。
  • 将场景中间高度平面均匀划分为 \(0.1 \times 0.1\text{m}^2\) 网格,用 FPS 选取 5 个最优观测点。
  • 每个观测点以 \(30°\) 间隔旋转渲染 12 张 RGB-D 图像(共 60 张),通过深度投影、坐标变换和体素下采样生成最终点云及实例标注。

损失函数与训练

  • 基于 Mask3D 框架,使用 binary cross-entropy loss + dice loss + mask loss 三者组合作为优化目标。
  • 真实数据和合成数据联合训练,合成数据损失权重 \(\alpha=0.5\)
  • 共训练 600 epochs,batch size 36,6 张 A100 GPU 分布式训练。
  • 合成数据集包含 2,000 个场景,约 134,000 个物体实例,平均每场景 67 个物体。

实验关键数据

表 1:与 SOTA 方法对比(Class-Agnostic 3D Instance Segmentation)

方法 ScanNet++ AP ScanNet++ AP50 S3DIS AP S3DIS AP50 ScanNetV2 AP ScanNetV2 AP50
Baseline (Mask3D) 12.0 21.7 13.6 23.2 46.6 69.0
SA3DIP 19.6 32.4 25.7 42.4 41.6 64.6
SAI3D 17.1 31.1 24.8 42.4 30.8 50.5
ASSIST-3D 22.2 35.5 29.0 43.9 48.1 70.7

ASSIST-3D 在三个数据集上全面超越 SOTA,尤其在跨域泛化(ScanNet++/S3DIS)上提升显著。

表 2:与其他 3D 场景合成方法对比

方法 几何多样性 上下文复杂度 布局合理性 ScanNet++ AP S3DIS AP
Holodeck ✗ (0.85) ✗ (0.38) ✓ (72) 14.2 18.2
RandomRooms ✓ (4.37) ✓ (0.04) ✗ (23) 16.6 23.5
ASSIST-3D ✓ (4.15) ✓ (0.08) ✓ (62) 22.2 29.0

ASSIST-3D 是唯一同时满足三大原则的方法,性能远超 Holodeck 和 RandomRooms。

消融实验亮点

  • 几何多样性:从 1 个聚类扩展到 5 个聚类,ScanNet++ AP 从 14.6 提升至 22.2(+52%)。
  • 上下文复杂度:共现概率从 100% 降到 0%,ScanNet++ AP 从 17.2 提升至 22.2。
  • 仿真实点云构建:mesh 直接采样 AP 仅 14.2,渲染方式达 22.2(+56%),大幅缩小域差距。
  • 数据可扩展性:更多物体类别和更多合成场景均持续带来性能提升。

亮点

  1. 系统性框架:明确提出 3D 合成数据应满足的三大原则(几何多样性、上下文复杂度、布局合理性),并设计了对应的技术方案。
  2. LLM + DFS 的布局生成巧妙结合了 LLM 的常识推理和搜索算法的物理约束检查,既合理又可控。
  3. 仿真实点云构建模拟真实 SLAM 采集流程,有效弥合合成-真实域差距,这一设计对合成数据训练具有普适参考价值。
  4. 消融实验充分:对三大原则分别做了详细的定量验证,每个组件的贡献清晰可衡量。
  5. 跨域泛化强:在 ScanNet++/S3DIS 上的提升尤为突出,验证了合成数据对 unseen 类别的泛化增益。

局限性

  1. 依赖 GPT-4 推理,场景布局生成的成本和速度受限于 LLM API 调用。
  2. 资产库仍有限:50,000 个模型/800 类虽然比真实数据丰富,但距离覆盖长尾真实场景仍有差距。
  3. 仅验证室内场景,未探索室外或更大规模场景(如城市级别)的适用性。
  4. 合成点云的纹理和材质真实度未充分讨论,color 层面的域差距可能仍然存在。
  5. DFS 布局的可扩展性:随场景物体数量增多,搜索空间指数增长,实际效率未详细报告。

相关工作

  • Class-agnostic 3D 分割:OpenMask3D 替换分类头为二分类器但泛化受限;SAI3D/SA3DIP 利用 SAM 做 2D→3D 提升但受 2D 误差影响;Segment3D 用伪标签预训练。ASSIST-3D 从数据生成角度解决问题,与上述方法互补。
  • 3D 场景合成:Holodeck 用 LLM 端到端生成高质量场景但物体多样性不足;RandomRooms 随机化带来多样性但布局不合理。ASSIST-3D 融合两者优点。
  • 合成数据训练:模拟真实传感器采集流程来构建点云的思路在自动驾驶领域已有先例,本文将其引入室内 3D 分割。

评分

  • 新颖性: ⭐⭐⭐⭐ — 将 3D 场景合成重新定位为 class-agnostic 分割的数据增强方案,三大原则的提炼和 LLM+DFS 布局设计有新意
  • 实验充分度: ⭐⭐⭐⭐ — 三个 benchmark 全面验证,消融实验对每个组件和原则做了细粒度分析
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,问题定义和原则推导逻辑严谨
  • 价值: ⭐⭐⭐⭐ — 合成数据生成的三大原则和仿真实点云构建对 3D 视觉社区有普适参考价值