ExtrinSplat: Decoupling Geometry and Semantics for Open-Vocabulary Understanding in 3D Gaussian Splatting¶
会议: CVPR 2026
arXiv: 2509.22225
代码: 无
领域: 3D Vision / 开放词汇3D场景理解
关键词: 3D Gaussian Splatting, 开放词汇理解, 语义解耦, VLM, 文本假设
一句话总结¶
提出外在范式(extrinsic paradigm),将语义从3DGS几何中完全解耦,通过多粒度物体分组+VLM文本假设构建轻量语义索引层,实现无训练、低存储、支持多义性的开放词汇3D场景理解。
研究背景与动机¶
领域现状: 开放词汇3D场景理解是自动驾驶和机器人的关键能力,3DGS因高保真建模和实时渲染成为理想表征基础。
现有痛点: 主流方法采用"嵌入范式"(embedding paradigm),将高维语义特征直接注入每个高斯点,存在三个根本性缺陷: - 几何-语义不一致:语义的基本单元应该是物体,而非高斯点。边界处的"中性点"(neutral points)被强行赋予语义标签,导致边界模糊 - 语义膨胀:注入GB级特征数据,存储和下游处理负担极重(每个场景约3GB CLIP特征) - 语义刚性:一个高斯只能存一个特征向量,无法表达多义性(如"车窗"既是"窗"也是"车的一部分")
核心矛盾: 嵌入范式将语义内嵌到几何中,但几何和语义的最小操作单元根本不同(点 vs 物体)
本文目标: 如何在不修改几何的前提下实现高效、准确、支持多义性的开放词汇3D理解
切入角度: 提出外在范式——语义作为独立的抽象索引层,引用而非嵌入几何
核心idea: 用多粒度物体分组替代逐点语义嵌入,用VLM生成的文本假设替代高维视觉特征
方法详解¶
整体框架¶
ExtrinSplat 是一个无训练框架,输入已优化的3DGS场景和对应图像序列,通过四个阶段构建外在语义索引层: 1. 数据准备:提取多视角、多粒度物体掩码 2. 物体级分组:将2D掩码反投影到3D高斯点,净化边界 3. 实例特征提取:VLM解释物体组生成文本假设 4. 外在语义索引层:组装为可查询的语义结构
关键设计¶
- 多粒度重叠物体分组(Multi-granularity Overlapping Grouping)
功能: 将3D高斯点聚类为多粒度、可重叠的物体组
核心思路: 使用SAM提取三个粒度级别(part/object/scene)的掩码,用DAM2SAM跟踪保证多视角一致性。通过掩码反投影建立2D-3D对应关系。关键公式为前景概率计算:
$\(W_k(G_j) = \sum_{v \in \mathcal{V}} \sum_{r \in \mathcal{P}_v} \delta(m_v(r) - k) \cdot w_v(r, G_j)\)$
分组在三个粒度上独立执行,因此同一个高斯点可以同时属于多个语义组(如"窗"和"车"),天然支持多义性。
设计动机: 嵌入范式每个点只能存一个特征向量,无法表达一个点属于多个语义实体的情况。多粒度重叠设计直接解决了语义刚性问题。
- 中性点处理(Neutral Point Processing)
功能: 识别并排除物体边界处既非前景也非背景的过渡性高斯点
核心思路: 利用多视角语义一致性量化模糊性。将每个视角视为给高斯点提供一个离散标签(前景/背景),计算语义熵:
$\(H(p) = -\left(\frac{V_f}{V}\log_2\frac{V_f}{V} + \frac{V_b}{V}\log_2\frac{V_b}{V}\right)\)$
高熵点为候选中性点,但需进一步用不透明度 \(\alpha\) 区分:高不透明度的高熵点实际是实体表面的误标记点,应保留分类;低不透明度的高熵点才是真正用于抗锯齿的过渡点,应排除。
设计动机: 现有方法假设每个点必须属于前景或背景,但渲染中必然存在过渡性的边界点。强行赋予语义会引入噪声和伪影。中性点概念首次明确定义了这个问题。
- 语义蒸馏(Semantic Distillation via VLM)
功能: 用VLM将视觉外观"蒸馏"为稳定的文本表征
核心思路: 对每个物体组选择可见面积最大的Top-N视角掩码,送入VLM(如Gemini 2.5 Pro)生成候选物体名称(文本假设),再用CLIP文本编码器编码为特征向量。
设计动机: 嵌入范式直接聚合多视角视觉特征,但CLIP等2D编码器具有视角敏感性——同一物体在不同视角产生差异显著的特征向量。VLM将不稳定的视觉特征"蒸馏"为稳定的文本描述,从根本上解决跨视角语义不一致问题。且文本存储只需MB级,远小于GB级视觉特征。
损失函数 / 训练策略¶
ExtrinSplat 是完全无训练的框架,不需要对比学习或特征优化。查询时通过余弦相似度匹配文本查询与预计算特征:
最终分割为所有匹配组的高斯点并集:\(\mathcal{G}_{\text{final}} = \bigcup_{i \in \mathcal{I}_m} \mathcal{G}_i\)
实验关键数据¶
主实验(LERF数据集 - 开放词汇3D物体选择)¶
| 方法 | 范式 | Ramen | Teatime | Figurines | Waldo | Mean mIoU |
|---|---|---|---|---|---|---|
| LangSplat (CVPR'24) | 嵌入 | 51.2 | 65.1 | 44.7 | 44.5 | 51.4 |
| OpenGaussian (NeurIPS'25) | 嵌入 | 31.0 | 60.4 | 39.3 | 22.7 | 38.4 |
| Dr.Splat (CVPR'25) | 嵌入 | 24.7 | 57.2 | 53.4 | 39.1 | 43.6 |
| LAGA (ICML'25) | 嵌入 | 55.6 | 70.9 | 64.1 | 65.6 | 64.0 |
| LUDVIG (ICCV'25) | 嵌入 | 42.3 | 58.6 | 58.0 | 42.8 | 50.4 |
| ExtrinSplat (本文) | 外在 | 45.6 | 72.7 | 63.1 | 68.2 | 62.4 |
效率对比¶
| 方法 | 场景优化 | 训练时间 | CLIP特征存储 | 峰值VRAM |
|---|---|---|---|---|
| LEGaussians | 需要 | ~2h | ~3GB | ~20GB |
| LangSplat | 需要 | ~2h | ~3GB | ~20GB |
| Dr.Splat | 不需要 | ~1h | ~3GB | ~24GB |
| ExtrinSplat | 不需要 | 无 | ~3MB | ~8GB |
关键发现¶
- CLIP特征存储从GB级降低到MB级(降低约1000倍),VRAM使用最低(8GB vs 20-28GB)
- 在3D训练无关方法中取得最优性能,整体性能与最佳嵌入方法LAGA接近
- 中性点处理显著提升物体边界清晰度
亮点与洞察¶
- 范式创新: 首次提出"外在范式"概念,将语义完全解耦为独立索引层,与嵌入范式形成鲜明对比
- 存储效率惊人: 语义存储从3GB降至3MB,这在实际部署中意义重大
- 天然多义性支持: 重叠分组设计使多义性成为框架的固有属性,而非需要额外处理的问题
- VLM蒸馏思路: 将不稳定的视觉特征蒸馏为稳定的文本表征,这个思路可推广到其他多视角理解任务
局限与展望¶
- 依赖SAM和DAM2SAM的掩码质量,复杂场景可能产生不完整分组
- VLM推理成本(Gemini 2.5 Pro)可能在离线端受限
- 分组粒度固定为SAM的三级,可能不适合所有语义查询粒度
- 未处理动态场景
相关工作与启发¶
- OpenGaussian/Dr.Splat: 代表嵌入范式的最新进展,通过特征聚合和量化优化效率
- LUDVIG: 无训练但仍嵌入CLIP特征,ExtrinSplat在相同无训练约束下显著超越
- 启发: 外在范式的解耦思想可以推广到其他3D表征(如NeRF、点云),核心是"操作单元的对齐"——用物体作为语义单元,用点作为几何单元
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 外在范式是全新的设计理念,中性点概念有原创性
- 实验充分度: ⭐⭐⭐⭐ LERF和ScanNet两个benchmark,消融充分,但缺少大规模场景测试
- 写作质量: ⭐⭐⭐⭐⭐ 三个问题-三个解法的对应结构非常清晰
- 价值: ⭐⭐⭐⭐⭐ 存储降低1000倍且无训练,实用价值极高
相关论文¶
- [CVPR 2026] OnlinePG: Online Open-Vocabulary Panoptic Mapping with 3D Gaussian Splatting
- [CVPR 2026] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
- [CVPR 2026] LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
- [ECCV 2024] Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation
- [CVPR 2026] Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment