Gaussian Grouping: Segment and Edit Anything in 3D Scenes¶
会议: ECCV2024
arXiv: 2312.00732
代码: https://github.com/lkeab/gaussian-grouping
领域: 3d_vision
关键词: 3D高斯Splatting, 场景分割, 3D编辑, SAM, 实例分组
一句话总结¶
为 3D Gaussian Splatting 中的每个高斯学习 16 维 Identity Encoding 实现实例级分组,使用 SAM + DEVA 视频跟踪生成多视图一致的 2D 伪标签做监督,在 LERF-Mask 开放词汇分割上 mIoU 达 69-77%(超 LERF 2 倍+),全景分割超 Panoptic Lifting 4.9% mIoU 且 14× 更快,同时支持 3D 物体移除/修复/着色/风格迁移等多种编辑。
研究背景与动机¶
- 领域现状:3D Gaussian Splatting(3DGS)以极快的渲染速度和高质量重建成为 NeRF 的有力替代。但 3DGS 将场景表示为无结构的高斯集合,缺乏语义理解——不知道哪些高斯属于同一物体。
- 现有痛点:(a) SA3D 等方法需逐个物体分割,一个复杂场景可能需要 35 分钟+;(b) LERF 在 NeRF 上蒸馏 CLIP 特征做开放词汇分割但精度低(mIoU 仅 30-50%);(c) Panoptic Lifting 做全景分割但基于 NeRF,FPS 仅 ~10;(d) 缺乏基于 3DGS 的统一分割+编辑框架。
- 核心矛盾:3DGS 高斯数量巨大(数十万),但缺乏语义分组——如何高效地为每个高斯赋予实例标签?直接为每个高斯学独立 embedding 训练困难,需要跨视图一致的 2D 监督信号。
- 本文要解决:(1) 将 3DGS 高斯按语义实例分组;(2) 基于分组实现多种 3D 编辑;(3) 保持 3DGS 的实时渲染优势。
- 切入角度:利用 SAM 的"everything"模式在每帧生成完整分割,再用视频跟踪器 DEVA 跨视图关联实例 ID,得到多视图一致伪标签。每个 3D 高斯学一个 16 维 Identity Encoding,通过 splatting 渲染到 2D 后用交叉熵监督。
- 核心 idea:给 3DGS 每个高斯加一个紧凑的身份编码 + 2D/3D 联合分组损失 = 零代价实例级 3D 场景理解 + 任意编辑。
方法详解¶
整体框架¶
(1) SAM everything 模式对每帧图像生成完整分割掩码 → (2) DEVA 零样本视频跟踪器跨帧关联掩码 ID(比线性分配快 60×)→ (3) 每个 3D 高斯增加 16 维 Identity Encoding,与位置/颜色/不透明度联合训练 → (4) 2D 渲染身份特征 + 线性分类层 + 交叉熵损失(\(\mathcal{L}_{2d}\))+ 3D KNN 正则化(\(\mathcal{L}_{3d}\))→ (5) 训练完成后按身份编码分组,支持多种编辑。
关键设计¶
- 16 维 Identity Encoding:
- 做什么:为每个 3D 高斯学习一个 16 维可微向量,表示其实例归属
- 核心思路:通过标准 3DGS alpha-blending 将 3D 身份编码 splatting 到 2D:\(E_{id} = \sum_{i} e_i \alpha'_i \prod_{j<i}(1 - \alpha'_j)\)。不使用视角相关的球谐函数(SH degree=0),因为实例标签应视角无关
-
设计动机:16 维足够紧凑(对渲染速度影响从 ~200 FPS 降到 ~170 FPS),且通过实验发现 32 维无进一步提升
-
SAM + DEVA 跨视图伪标签:
- 做什么:SAM everything 模式逐帧生成无关联的掩码 → DEVA 视频跟踪器跨帧传播实例 ID
- 核心思路:DEVA 是零样本视频分割跟踪器,能在不同视角间关联同一实例,输出统一 ID 编号
-
设计动机:比传统的代价矩阵线性分配(Panoptic Lifting 方案)快 60 倍(1 分钟 vs 1 小时),且跟踪质量更好
-
2D + 3D 联合分组损失:
- \(\mathcal{L}_{2d}\):渲染的 2D 身份特征经线性层映射到 K 类(K = 场景中掩码总数),标准交叉熵监督
- \(\mathcal{L}_{3d}\):对采样的 3D 高斯,鼓励其 K=5 最近邻的身份编码与自身一致(KL 散度)
-
\(\mathcal{L}_{3d}\) 的关键意义:2D 监督无法覆盖被遮挡的高斯和物体内部的高斯——3D 正则化通过空间邻近假设补充监督。消融显示 K=5 时移除准确率从 41.2% 提升到 67.5%
-
局部高斯编辑:
- 移除:直接删除目标高斯
- 修复:删除后用 LaMa 2D inpainting → 加入新高斯 + 微调
- 着色/风格迁移:冻结非目标高斯,仅微调目标高斯的颜色 SH / 位置等属性
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{rec} + \lambda_{2d}\mathcal{L}_{2d} + \lambda_{3d}\mathcal{L}_{3d}\),\(\lambda_{2d}=1.0\),\(\lambda_{3d}=2.0\)。30K 迭代,单 A100 GPU。Identity Encoding 学习率 2.5e-3,线性层 5e-4。
实验关键数据¶
主实验¶
开放词汇分割(LERF-Mask 数据集):
| 方法 | figurines mIoU | ramen mIoU | teatime mIoU |
|---|---|---|---|
| LERF | 33.5 | 28.3 | 49.7 |
| SA3D | 24.9 | 7.4 | 42.5 |
| LangSplat | 52.8 | 50.4 | 69.5 |
| Gaussian Grouping | 69.7 | 77.0 | 71.7 |
全景分割:
| 方法 | Replica mIoU | Replica PQ | Replica FPS | ScanNet mIoU | ScanNet FPS |
|---|---|---|---|---|---|
| Panoptic Lifting | 66.22 | 64.34 | ~10 | 67.01 | ~10 |
| Gaussian Grouping | 71.15 | 66.52 | ~140 | 68.70 | ~150 |
渲染质量几乎无损:PSNR 28.43 vs 原始 3DGS 28.69(仅降 0.26 dB)。
消融实验¶
| K(3D 正则化最近邻数) | 移除准确率 |
|---|---|
| K=0(无 3D loss) | — |
| K=1 | 41.2% |
| K=5 | 67.5% |
| K=10 | 76.6% |
关键发现¶
- 3D 正则化至关重要:K=1 只有 41.2% 移除准确率,K=5 提升到 67.5%,因为仅靠 2D 监督无法覆盖遮挡的高斯
- DEVA 跟踪 >> 线性分配:快 60×(1min vs 1hr)且掩码质量更好
- 编辑质量超越专用方法:3D 修复 CLIP 相似度 0.153 vs SPIn-NeRF 的 0.126(+21%),风格迁移 0.178 vs Instruct-NeRF2NeRF 的 0.171
- 速度优势压倒性:分割 9 分钟 vs SA3D 35 分钟;渲染 140-150 FPS vs Panoptic Lifting 10 FPS
亮点与洞察¶
- 极简但强力的设计:仅给每个高斯加 16 维向量 + 交叉熵损失,就把 3DGS 从纯重建升级为分割+编辑的统一平台。设计之简约令人印象深刻,几乎没有增加架构复杂度
- SAM + 视频跟踪的妙用:绕开了"为 3D 场景做多视图一致标注"的难题,利用 SAM 的强零样本分割能力 + 视频跟踪器的时序一致性,自动生成高质量伪标签。这个管道可复用于任何需要多视图一致分割的 3D 任务
- 3D 正则化补遮挡:2D 损失的天然缺陷是无法监督不可见高斯,KNN 一致性假设完美弥补了这一点
局限性 / 可改进方向¶
- 伪标签质量瓶颈:最终分割质量受限于 SAM + DEVA 的 2D 分割/跟踪质量,对精细边界和重度遮挡场景可能不够好
- 固定类别数 K:训练时 K 固定为场景中的掩码总数,新物体出现需要重新训练
- 编辑需额外微调:修复/风格迁移等编辑操作需要 20 分钟到 1 小时的额外微调,非实时
- 可改进:(1) 用开放词汇特征(如 CLIP)替代离散 ID 编码实现零样本类别查询;(2) 引入动态场景支持;(3) 加入深度一致性约束进一步提升 3D 正则化效果
相关工作与启发¶
- vs SA3D: SA3D 逐物体交互式分割,一个场景需多次操作。Gaussian Grouping 一次性分割所有实例,效率高 4 倍
- vs LERF/LangSplat: 基于 CLIP 特征蒸馏做开放词汇分割,但 CLIP 特征空间分辨率低导致 mIoU 较低。Gaussian Grouping 用实例级 ID 编码,分割边界更清晰
- vs Panoptic Lifting: 同为全景分割但基于 NeRF,速度慢 14×。Gaussian Grouping 继承 3DGS 的渲染速度优势
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次在 3DGS 上实现完整的实例分组和编辑流水线,设计简洁优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 开放词汇分割、全景分割、5种编辑任务、渲染质量、速度、消融全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ Pipeline 图清晰,实验展示丰富,定量+定性评估充分
- 价值: ⭐⭐⭐⭐⭐ 连接了 3DGS 重建与下游理解/编辑,开源代码对社区影响大