LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS¶

会议: NeurIPS 2025
arXiv: 2507.07136
代码: 项目主页 (有)
领域: 3d_vision
关键词: 3D语言场, 高斯溅射, 稀疏编码, 实时推理, 开放词汇查询

一句话总结¶

通过将每个3D高斯视为全局字典上的稀疏编码，LangSplatV2用稀疏系数场替代重量级解码器，实现476.2 FPS的高维特征溅射和384.6 FPS的3D开放词汇查询，较LangSplat加速47倍。

研究背景与动机¶

领域现状：3D语言场是视觉语言模型与3D环境建模的交叉领域，LangSplat通过3D高斯溅射嵌入CLIP特征取得重要进展（比LERF快199倍）。

现有痛点：LangSplat仍未达到实时推理（8.2 FPS），重量级MLP解码器占总推理时间的97.1%，严重限制AR、机器人等应用。

核心矛盾：CLIP特征是512维高维向量，直接溅射开销巨大（1536维比3维慢15倍）；但通过编码器压缩到低维再解码引入了沉重的MLP瓶颈。

本文目标：消除解码器瓶颈，实现高维特征的实时溅射。

切入角度：观察到场景中百万级高斯点实际只包含有限数量的独特语义，可用稀疏编码高效表示。

核心 idea：每个高斯的语言特征是全局码本上K个基向量的稀疏线性组合，渲染稀疏系数而非高维特征。

方法详解¶

整体框架¶

为每个3D高斯学习一个L维稀疏系数向量（仅K个非零值）和一个共享的全局码本（L个D维基向量）。推理时：(1) 溅射K维稀疏系数 → (2) 矩阵乘法恢复D维CLIP特征 → (3) 计算相关性评分。完全去除MLP解码器。

关键设计¶

3D稀疏系数场（3D Sparse Coefficient Field）：
- 功能：用稀疏系数+全局码本替代每个高斯的高维语言特征
- 为什么：百万高斯点仅对应有限语义，天然适合稀疏表示
- 怎么做：每个高斯的特征 \(\mathbf{f}_i = \mathbf{w}_i \mathcal{S} = \sum_{l=1}^{L} w_{i,l} \mathbf{s}_l\)，其中 \(\mathbf{w}_i \in \mathbb{R}^{L}\) 仅K个非零值
- 关键推导：\(\mathbf{S} = \sum_{i \in \mathcal{N}} \mathbf{w}_i \mathcal{S} e_i = (\sum_{i \in \mathcal{N}} e_i \mathbf{w}_i) \mathcal{S}\)
- 区别：渲染D维特征等价于先渲染L维系数再乘码本，解耦了渲染维度与特征维度
高效稀疏系数溅射（Efficient Sparse Coefficient Splatting）：
- 功能：利用稀疏性加速CUDA alpha-blending
- 为什么：标准溅射复杂度 \(O(|\mathcal{N}| \cdot L)\)，L大时成为瓶颈
- 怎么做：每个高斯仅存储top-K索引和系数值，alpha-blending仅对K个非零元素操作
- 复杂度从 \(O(|\mathcal{N}| \cdot L)\) 降到 \(O(|\mathcal{N}| \cdot K)\)
- 实践中K=4，三个语义尺度并行渲染有效维度仅12
- 区别：渲染速度与特征维度完全解耦
全局码本学习：
- 功能：为整个场景学习L个D维基向量
- 为什么：捕获场景中所有独特语义的紧凑表示
- 怎么做：L维稀疏系数先softmax归一化，保留top-K后重归一化，与码本联合端到端学习
- 参数设置：L=64, K=4, D=512（CLIP特征维度）
- 区别：无维度压缩损失（直接在CLIP空间学习）

损失函数 / 训练策略¶

先用RGB监督训练3D高斯30,000轮
再固定高斯参数，训练稀疏系数场10,000轮
使用OpenCLIP ViT-B/16提取CLIP特征，SAM ViT-H进行语义分割
三个SAM层级语义同时建模

实验关键数据¶

主实验¶

LERF数据集 - 3D开放词汇定位与分割：

方法	定位Acc(%)	分割IoU(%)	速度(FPS)
LERF	—	—	~0.04
LangSplat	84.3	51.4	8.2
GAGS	81.7	54.1	—
LangSplatV2	84.1	59.9	384.6

推理时间分解 (毫秒, A100 GPU)：

方法	渲染	解码	后处理	总计	FPS
LangSplat	6.0	83.1	33.0	122.1	8.2
LangSplat*	2.0	83.1	0.5	85.6	11.7
LangSplatV2	2.0	0.1	0.5	2.6	384.6

不同GPU上的特征渲染时间 (ms)： - RTX 3090和RTX 4090在特征维度≥1024时OOM - LangSplatV2渲染时间不随特征维度增长（始终≈2ms）

消融实验¶

码本大小L和稀疏度K的影响（LERF数据集, Overall IoU %）：

L/K	K=2	K=4	K=8
L=32	56.8	58.1	58.5
L=64	57.5	59.9	59.7
L=128	57.2	59.5	59.8

（L=64, K=4为最佳效率-精度平衡点）

关键发现¶

解码器去除后速度提升47倍（8.2→384.6 FPS），分割精度反而提升8.5% IoU
精度提升原因：消除了维度压缩带来的信息损失，直接在CLIP空间建模
K=4已足以高质量表示场景语义，进一步增大K边际收益极小
在3D-OVS和Mip-NeRF360数据集上同样优于LangSplat
特征渲染速度与维度完全解耦是核心技术贡献

亮点与洞察¶

"解码即瓶颈"的深刻洞察：97.1%推理时间在解码阶段，通过定量分析精准定位问题
稀疏编码思想的优雅应用：从百万高斯点到有限语义的观察极具直觉性
数学推导简洁有力：渲染线性性使得特征维度与渲染维度完美解耦
工程与理论兼备：CUDA稀疏优化实现了理论承诺的加速倍数

局限与展望¶

码本大小L和稀疏度K需要手动设置
稀疏性假设可能在语义极其丰富的大规模场景中受限
训练分两阶段（RGB→语言），端到端联合训练可能进一步提升
可探索自适应K值——不同区域语义复杂度不同

评分¶

新颖性: ⭐⭐⭐⭐ 稀疏系数场思路清晰优雅且有效
实验充分度: ⭐⭐⭐⭐ 多数据集、详细时间分析、全面消融
写作质量: ⭐⭐⭐⭐⭐ 问题分析→方案推导→实验验证的逻辑链极其流畅
价值: ⭐⭐⭐⭐⭐ 47倍加速+精度提升，直接推动3D语言场落地应用