ReLaGS: Relational Language Gaussian Splatting¶

会议: CVPR2026 arXiv: 2603.17605 代码: 项目主页领域: 3D视觉 关键词: 3D高斯溅射, 开放词汇, 3D场景图, 层级语义, 关系推理, 无训练

一句话总结¶

提出首个统一多层级语言高斯场与开放词汇3D场景图的无训练框架 ReLaGS，通过最大权重剪枝和鲁棒异常值感知特征聚合改进场景表示，结合GNN关系预测实现高效的结构化3D场景理解。

研究背景与动机¶

辐射场缺乏语义：NeRF/3DGS 虽然在几何和光度重建上表现优异，但缺乏场景语义信息，无法支持高层推理任务（导航、编辑、问答）。
语言场蒸馏的局限：现有语言场方法（LangSplat、LERF等）仅编码"有什么物体"，无法处理涉及空间关系的查询如"选择笔记本电脑旁边的杯子"，因为它们是单层级、孤立的——缺乏层级语义和实体间关系。
缺乏层级粒度：用户可能描述整体物体（"拉面"）或其部件（"面条"），单一语义粒度无法区分部件级与物体级查询，难以适应自然语言的模糊性。
关系建模代价高：RelationField 通过射线对学习关系但需要数小时逐场景训练、渲染低于10fps；SplatTalk 需要 LLM 分词和 LoRA 微调，成本高昂。
多视角特征不一致：SAM 掩码在不同视角间存在不一致性，CLIP 特征噪声大，直接平均聚合会导致物体嵌入被离群值污染。
场景图方法受限：ConceptGraphs 依赖昂贵的 LLM 推理且输出文本图；GaussianGraph 需要逐场景训练；Open3DSG 受限于预分割点云——缺乏统一高效的开放词汇3D场景图方案。

方法详解¶

整体框架¶

ReLaGS 包含三个阶段，全程无需逐场景训练：

最大权重剪枝 (MWP)：从重建好的高斯场中去除对所有训练视角贡献极小的浮动高斯，净化几何结构
多层级高斯场构建：采用 THGS 的无梯度分层策略，将高斯从超点→子部件→部件→物体逐层聚类，配合鲁棒异常值感知特征聚合 (ROFA) 生成可靠的语言嵌入
3D场景图构建：在层级表示之上构建显式开放词汇场景图，提供LLM标注提升和GNN预测两种关系获取方式

关键设计¶

最大权重剪枝 (Maximum Weight Pruning)：

对每个高斯 \(G_i\) 计算其在所有视角、所有像素上的最大贡献权重 \(\omega_i^{\max} = \max_{c,p} w_{i,p}^{(c)}\)
剪除 \(\omega_i^{\max} < \tau_{contrib}\) 的高斯，这些通常是边界处或遮挡区域的浮动点
消融实验表明此步是性能提升的最大贡献者（+6.16 mIoU）

鲁棒异常值感知特征聚合 (ROFA)：

对物体在 \(\mathcal{C}_{obj}\) 个视角中的 CLIP 特征 \(\{f_i\}\)，计算每个特征与其余特征的平均余弦相似度 \(s_i\)
对相似度做 Z-score 标准化 \(z_i = (s_i - \mu_s)/\sigma_s\)，过滤 \(z_i < -\tau_{lang}\) 的离群特征
仅对剩余一致特征取平均，得到稳定的物体语言嵌入
阈值 \(\tau_{lang}=3\) 时效果最佳

多层级高斯表示：

定义 \(L\) 层嵌套层级 \(\mathcal{S}^{(1)}, \dots, \mathcal{S}^{(L)}\)，低层为细粒度部件，高层为完整物体
利用像素→主导高斯映射（\(G^*_{(u,v)} = \arg\max_i w_i\)）建立一致的2D-3D对应
设计树搜索查询算法：从根节点出发，若子节点与查询的相似度更高则向下搜索，自动判断查询粒度

场景图构建——双路方案：

LLM提升路径：渲染视角一致的簇ID图 → SoM标记 → GPT-4V推理关系谓词 → 取 top-\(k_p\) 频率谓词 → Jina编码后平均作为边嵌入（语义丰富但稀疏）
GNN预测路径：在距离阈值内的邻居图上用残差图神经网络 \(\mathcal{F}_\theta\) 预测关系嵌入 \(\hat{f}_{ij} = f'_{ij} + \mathcal{F}_\theta(f_v^{src}, f_v^{dst}, f'_{ij})\)，在3RScan上用对比学习预训练后直接泛化（高效可扩展）

损失函数¶

GNN使用对比学习损失预训练：对齐预测的关系嵌入与真实关系嵌入在 Jina 嵌入空间中的表示
整体框架无需逐场景梯度优化损失

实验¶

3D场景图预测 (3DSSG/RIO10)¶

方法	Object R@5	Object R@10	Predicate R@3	Predicate R@5	场景无关
ConceptGraphs	0.37	0.46	0.74	0.79	✗
RelationField	0.69	0.80	0.76	0.82	✗
Open3DSG	0.56	0.61	0.58	0.65	✓
ReLaGS (GNN)	0.68	0.79	0.79	0.87	✓

ReLaGS 的关系预测超越 RelationField +0.3 R@3 / +0.5 R@5，且无需逐场景训练
比 RelationField 快4.7倍、省7.6倍GPU显存（7.5GB vs 32GB）

关系引导的3D实例分割 (ScanNet++)¶

方法	mIoU	场景无关
LERF	0.25	✗
OpenNeRF	0.45	✗
LangSplat	0.49	✗
RelationField	0.53	✗
THGS	0.29	✓
ReLaGS	0.56	✓

开放词汇分割 (LERF-OVS)¶

方法	Figurines	Ramen	Teatime	Waldo	Mean	无训练
LAGA	64.1	55.6	70.9	65.6	64.0	✗
THGS	57.3	43.5	68.3	50.7	54.9	✓
VALA	59.9	51.5	70.2	65.1	61.7	✓
ReLaGS	64.7	51.2	81.0	60.6	64.4	✓

消融实验¶

配置	Figurines	Ramen	Teatime	Kitchen	Mean
Baseline	52.05	47.19	76.77	47.50	55.88
+MWP	59.16	47.41	80.98	60.59	62.04
+MWP+ROFA (完整)	64.69	51.15	80.98	60.60	64.36

关键发现¶

MWP 贡献最大（+6.16 mIoU），去除浮动高斯对几何和下游聚类至关重要
ROFA 在密集遮挡场景（Figurines +5.53, Ramen +3.74）效果显著
\(\tau_{lang}=3\) 是最优阈值，过低过高均损害性能
GNN跨数据集泛化良好（3RScan → ScanNet++），语言高斯与点云特征的模态差距小
全流程约12.6分钟完成（场景重建11min + 语言蒸馏1.5min + 场景图0.1min），渲染200+ fps

亮点¶

首个统一框架：同时实现多层级语义层次和开放词汇关系推理，兼顾"有什么"、"怎么组成"、"如何关联"
完全无需逐场景训练：比 RelationField 快4.7倍、省7.6倍显存，实现真正可扩展的3D理解
MWP + ROFA 组合巧妙：分别净化几何和语义，简单有效，消融验证充分
双路场景图设计：LLM提升提供语义丰富边，GNN预测提供高效覆盖，互补性强
树搜索查询：自动适配查询粒度，统一物体级和部件级发现

局限性¶

ROFA 依赖 Z-score 阈值 \(\tau_{lang}\)，需对每个数据集调参；在极端视角稀疏场景中可能不够鲁棒
GNN 预训练在 3RScan 的27类关系上，开放词汇关系的真正泛化能力（如罕见谓词）未被充分验证
ScanNet 3D语义分割提升有限（因评估协议要求固定高斯数量，MWP 被禁用）
LLM提升路径依赖 GPT-4V，成本高且可复现性受限
未涉及动态场景或大规模室外场景的测试

评分¶

新颖性: ⭐⭐⭐⭐ — 首次统一层级高斯表示与显式场景图，MWP/ROFA设计简洁有效
实验充分度: ⭐⭐⭐⭐ — 四个数据集/三类任务，消融完整，但ScanNet提升有限的解释略显牵强
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机论证充分，图示信息量大
价值: ⭐⭐⭐⭐ — 无训练+高效+多任务统一是3DGS语义理解的重要方向，场景图构建有实用价值