Gaussian Grouping: Segment and Edit Anything in 3D Scenes¶

会议: ECCV2024
arXiv: 2312.00732
代码: https://github.com/lkeab/gaussian-grouping
领域: 3d_vision
关键词: 3D高斯Splatting, 场景分割, 3D编辑, SAM, 实例分组

一句话总结¶

为 3D Gaussian Splatting 中的每个高斯学习 16 维 Identity Encoding 实现实例级分组，使用 SAM + DEVA 视频跟踪生成多视图一致的 2D 伪标签做监督，在 LERF-Mask 开放词汇分割上 mIoU 达 69-77%（超 LERF 2 倍+），全景分割超 Panoptic Lifting 4.9% mIoU 且 14× 更快，同时支持 3D 物体移除/修复/着色/风格迁移等多种编辑。

研究背景与动机¶

领域现状：3D Gaussian Splatting（3DGS）以极快的渲染速度和高质量重建成为 NeRF 的有力替代。但 3DGS 将场景表示为无结构的高斯集合，缺乏语义理解——不知道哪些高斯属于同一物体。
现有痛点：(a) SA3D 等方法需逐个物体分割，一个复杂场景可能需要 35 分钟+；(b) LERF 在 NeRF 上蒸馏 CLIP 特征做开放词汇分割但精度低（mIoU 仅 30-50%）；(c) Panoptic Lifting 做全景分割但基于 NeRF，FPS 仅 ~10；(d) 缺乏基于 3DGS 的统一分割+编辑框架。
核心矛盾：3DGS 高斯数量巨大（数十万），但缺乏语义分组——如何高效地为每个高斯赋予实例标签？直接为每个高斯学独立 embedding 训练困难，需要跨视图一致的 2D 监督信号。
本文要解决：(1) 将 3DGS 高斯按语义实例分组；(2) 基于分组实现多种 3D 编辑；(3) 保持 3DGS 的实时渲染优势。
切入角度：利用 SAM 的"everything"模式在每帧生成完整分割，再用视频跟踪器 DEVA 跨视图关联实例 ID，得到多视图一致伪标签。每个 3D 高斯学一个 16 维 Identity Encoding，通过 splatting 渲染到 2D 后用交叉熵监督。
核心 idea：给 3DGS 每个高斯加一个紧凑的身份编码 + 2D/3D 联合分组损失 = 零代价实例级 3D 场景理解 + 任意编辑。

方法详解¶

整体框架¶

(1) SAM everything 模式对每帧图像生成完整分割掩码 → (2) DEVA 零样本视频跟踪器跨帧关联掩码 ID（比线性分配快 60×）→ (3) 每个 3D 高斯增加 16 维 Identity Encoding，与位置/颜色/不透明度联合训练 → (4) 2D 渲染身份特征 + 线性分类层 + 交叉熵损失（\(\mathcal{L}_{2d}\)）+ 3D KNN 正则化（\(\mathcal{L}_{3d}\)）→ (5) 训练完成后按身份编码分组，支持多种编辑。

关键设计¶

16 维 Identity Encoding:
做什么：为每个 3D 高斯学习一个 16 维可微向量，表示其实例归属
核心思路：通过标准 3DGS alpha-blending 将 3D 身份编码 splatting 到 2D：\(E_{id} = \sum_{i} e_i \alpha'_i \prod_{j<i}(1 - \alpha'_j)\)。不使用视角相关的球谐函数（SH degree=0），因为实例标签应视角无关
设计动机：16 维足够紧凑（对渲染速度影响从 ~200 FPS 降到 ~170 FPS），且通过实验发现 32 维无进一步提升
SAM + DEVA 跨视图伪标签:
做什么：SAM everything 模式逐帧生成无关联的掩码 → DEVA 视频跟踪器跨帧传播实例 ID
核心思路：DEVA 是零样本视频分割跟踪器，能在不同视角间关联同一实例，输出统一 ID 编号
设计动机：比传统的代价矩阵线性分配（Panoptic Lifting 方案）快 60 倍（1 分钟 vs 1 小时），且跟踪质量更好
2D + 3D 联合分组损失:
\(\mathcal{L}_{2d}\)：渲染的 2D 身份特征经线性层映射到 K 类（K = 场景中掩码总数），标准交叉熵监督
\(\mathcal{L}_{3d}\)：对采样的 3D 高斯，鼓励其 K=5 最近邻的身份编码与自身一致（KL 散度）
\(\mathcal{L}_{3d}\) 的关键意义：2D 监督无法覆盖被遮挡的高斯和物体内部的高斯——3D 正则化通过空间邻近假设补充监督。消融显示 K=5 时移除准确率从 41.2% 提升到 67.5%
局部高斯编辑:
移除：直接删除目标高斯
修复：删除后用 LaMa 2D inpainting → 加入新高斯 + 微调
着色/风格迁移：冻结非目标高斯，仅微调目标高斯的颜色 SH / 位置等属性

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{rec} + \lambda_{2d}\mathcal{L}_{2d} + \lambda_{3d}\mathcal{L}_{3d}\)，\(\lambda_{2d}=1.0\)，\(\lambda_{3d}=2.0\)。30K 迭代，单 A100 GPU。Identity Encoding 学习率 2.5e-3，线性层 5e-4。

实验关键数据¶

主实验¶

开放词汇分割（LERF-Mask 数据集）:

方法	figurines mIoU	ramen mIoU	teatime mIoU
LERF	33.5	28.3	49.7
SA3D	24.9	7.4	42.5
LangSplat	52.8	50.4	69.5
Gaussian Grouping	69.7	77.0	71.7

全景分割:

方法	Replica mIoU	Replica PQ	Replica FPS	ScanNet mIoU	ScanNet FPS
Panoptic Lifting	66.22	64.34	~10	67.01	~10
Gaussian Grouping	71.15	66.52	~140	68.70	~150

渲染质量几乎无损：PSNR 28.43 vs 原始 3DGS 28.69（仅降 0.26 dB）。

消融实验¶

K（3D 正则化最近邻数）	移除准确率
K=0（无 3D loss）	—
K=1	41.2%
K=5	67.5%
K=10	76.6%

关键发现¶

3D 正则化至关重要：K=1 只有 41.2% 移除准确率，K=5 提升到 67.5%，因为仅靠 2D 监督无法覆盖遮挡的高斯
DEVA 跟踪 >> 线性分配：快 60×（1min vs 1hr）且掩码质量更好
编辑质量超越专用方法：3D 修复 CLIP 相似度 0.153 vs SPIn-NeRF 的 0.126（+21%），风格迁移 0.178 vs Instruct-NeRF2NeRF 的 0.171
速度优势压倒性：分割 9 分钟 vs SA3D 35 分钟；渲染 140-150 FPS vs Panoptic Lifting 10 FPS

亮点与洞察¶

极简但强力的设计：仅给每个高斯加 16 维向量 + 交叉熵损失，就把 3DGS 从纯重建升级为分割+编辑的统一平台。设计之简约令人印象深刻，几乎没有增加架构复杂度
SAM + 视频跟踪的妙用：绕开了"为 3D 场景做多视图一致标注"的难题，利用 SAM 的强零样本分割能力 + 视频跟踪器的时序一致性，自动生成高质量伪标签。这个管道可复用于任何需要多视图一致分割的 3D 任务
3D 正则化补遮挡：2D 损失的天然缺陷是无法监督不可见高斯，KNN 一致性假设完美弥补了这一点

局限性 / 可改进方向¶

伪标签质量瓶颈：最终分割质量受限于 SAM + DEVA 的 2D 分割/跟踪质量，对精细边界和重度遮挡场景可能不够好
固定类别数 K：训练时 K 固定为场景中的掩码总数，新物体出现需要重新训练
编辑需额外微调：修复/风格迁移等编辑操作需要 20 分钟到 1 小时的额外微调，非实时
可改进：(1) 用开放词汇特征（如 CLIP）替代离散 ID 编码实现零样本类别查询；(2) 引入动态场景支持；(3) 加入深度一致性约束进一步提升 3D 正则化效果

评分¶

新颖性: ⭐⭐⭐⭐ 首次在 3DGS 上实现完整的实例分组和编辑流水线，设计简洁优雅
实验充分度: ⭐⭐⭐⭐⭐ 开放词汇分割、全景分割、5种编辑任务、渲染质量、速度、消融全覆盖
写作质量: ⭐⭐⭐⭐⭐ Pipeline 图清晰，实验展示丰富，定量+定性评估充分
价值: ⭐⭐⭐⭐⭐ 连接了 3DGS 重建与下游理解/编辑，开源代码对社区影响大