跳转至

ReLaGS: Relational Language Gaussian Splatting

会议: CVPR2026 arXiv: 2603.17605 代码: 项目主页 领域: 3D视觉 关键词: 3D高斯溅射, 开放词汇, 3D场景图, 层级语义, 关系推理, 无训练

一句话总结

提出首个统一多层级语言高斯场与开放词汇3D场景图的无训练框架 ReLaGS,通过最大权重剪枝和鲁棒异常值感知特征聚合改进场景表示,结合GNN关系预测实现高效的结构化3D场景理解。

研究背景与动机

  1. 辐射场缺乏语义:NeRF/3DGS 虽然在几何和光度重建上表现优异,但缺乏场景语义信息,无法支持高层推理任务(导航、编辑、问答)。
  2. 语言场蒸馏的局限:现有语言场方法(LangSplat、LERF等)仅编码"有什么物体",无法处理涉及空间关系的查询如"选择笔记本电脑旁边的杯子",因为它们是单层级、孤立的——缺乏层级语义和实体间关系。
  3. 缺乏层级粒度:用户可能描述整体物体("拉面")或其部件("面条"),单一语义粒度无法区分部件级与物体级查询,难以适应自然语言的模糊性。
  4. 关系建模代价高:RelationField 通过射线对学习关系但需要数小时逐场景训练、渲染低于10fps;SplatTalk 需要 LLM 分词和 LoRA 微调,成本高昂。
  5. 多视角特征不一致:SAM 掩码在不同视角间存在不一致性,CLIP 特征噪声大,直接平均聚合会导致物体嵌入被离群值污染。
  6. 场景图方法受限:ConceptGraphs 依赖昂贵的 LLM 推理且输出文本图;GaussianGraph 需要逐场景训练;Open3DSG 受限于预分割点云——缺乏统一高效的开放词汇3D场景图方案。

方法详解

整体框架

ReLaGS 包含三个阶段,全程无需逐场景训练

  1. 最大权重剪枝 (MWP):从重建好的高斯场中去除对所有训练视角贡献极小的浮动高斯,净化几何结构
  2. 多层级高斯场构建:采用 THGS 的无梯度分层策略,将高斯从超点→子部件→部件→物体逐层聚类,配合鲁棒异常值感知特征聚合 (ROFA) 生成可靠的语言嵌入
  3. 3D场景图构建:在层级表示之上构建显式开放词汇场景图,提供LLM标注提升和GNN预测两种关系获取方式

关键设计

最大权重剪枝 (Maximum Weight Pruning)

  • 对每个高斯 \(G_i\) 计算其在所有视角、所有像素上的最大贡献权重 \(\omega_i^{\max} = \max_{c,p} w_{i,p}^{(c)}\)
  • 剪除 \(\omega_i^{\max} < \tau_{contrib}\) 的高斯,这些通常是边界处或遮挡区域的浮动点
  • 消融实验表明此步是性能提升的最大贡献者(+6.16 mIoU)

鲁棒异常值感知特征聚合 (ROFA)

  • 对物体在 \(\mathcal{C}_{obj}\) 个视角中的 CLIP 特征 \(\{f_i\}\),计算每个特征与其余特征的平均余弦相似度 \(s_i\)
  • 对相似度做 Z-score 标准化 \(z_i = (s_i - \mu_s)/\sigma_s\),过滤 \(z_i < -\tau_{lang}\) 的离群特征
  • 仅对剩余一致特征取平均,得到稳定的物体语言嵌入
  • 阈值 \(\tau_{lang}=3\) 时效果最佳

多层级高斯表示

  • 定义 \(L\) 层嵌套层级 \(\mathcal{S}^{(1)}, \dots, \mathcal{S}^{(L)}\),低层为细粒度部件,高层为完整物体
  • 利用像素→主导高斯映射(\(G^*_{(u,v)} = \arg\max_i w_i\))建立一致的2D-3D对应
  • 设计树搜索查询算法:从根节点出发,若子节点与查询的相似度更高则向下搜索,自动判断查询粒度

场景图构建——双路方案

  • LLM提升路径:渲染视角一致的簇ID图 → SoM标记 → GPT-4V推理关系谓词 → 取 top-\(k_p\) 频率谓词 → Jina编码后平均作为边嵌入(语义丰富但稀疏)
  • GNN预测路径:在距离阈值内的邻居图上用残差图神经网络 \(\mathcal{F}_\theta\) 预测关系嵌入 \(\hat{f}_{ij} = f'_{ij} + \mathcal{F}_\theta(f_v^{src}, f_v^{dst}, f'_{ij})\),在3RScan上用对比学习预训练后直接泛化(高效可扩展)

损失函数

  • GNN使用对比学习损失预训练:对齐预测的关系嵌入与真实关系嵌入在 Jina 嵌入空间中的表示
  • 整体框架无需逐场景梯度优化损失

实验

3D场景图预测 (3DSSG/RIO10)

方法 Object R@5 Object R@10 Predicate R@3 Predicate R@5 场景无关
ConceptGraphs 0.37 0.46 0.74 0.79
RelationField 0.69 0.80 0.76 0.82
Open3DSG 0.56 0.61 0.58 0.65
ReLaGS (GNN) 0.68 0.79 0.79 0.87
  • ReLaGS 的关系预测超越 RelationField +0.3 R@3 / +0.5 R@5,且无需逐场景训练
  • 比 RelationField 快4.7倍、省7.6倍GPU显存(7.5GB vs 32GB)

关系引导的3D实例分割 (ScanNet++)

方法 mIoU 场景无关
LERF 0.25
OpenNeRF 0.45
LangSplat 0.49
RelationField 0.53
THGS 0.29
ReLaGS 0.56

开放词汇分割 (LERF-OVS)

方法 Figurines Ramen Teatime Waldo Mean 无训练
LAGA 64.1 55.6 70.9 65.6 64.0
THGS 57.3 43.5 68.3 50.7 54.9
VALA 59.9 51.5 70.2 65.1 61.7
ReLaGS 64.7 51.2 81.0 60.6 64.4

消融实验

配置 Figurines Ramen Teatime Kitchen Mean
Baseline 52.05 47.19 76.77 47.50 55.88
+MWP 59.16 47.41 80.98 60.59 62.04
+MWP+ROFA (完整) 64.69 51.15 80.98 60.60 64.36

关键发现

  • MWP 贡献最大(+6.16 mIoU),去除浮动高斯对几何和下游聚类至关重要
  • ROFA 在密集遮挡场景(Figurines +5.53, Ramen +3.74)效果显著
  • \(\tau_{lang}=3\) 是最优阈值,过低过高均损害性能
  • GNN跨数据集泛化良好(3RScan → ScanNet++),语言高斯与点云特征的模态差距小
  • 全流程约12.6分钟完成(场景重建11min + 语言蒸馏1.5min + 场景图0.1min),渲染200+ fps

亮点

  • 首个统一框架:同时实现多层级语义层次和开放词汇关系推理,兼顾"有什么"、"怎么组成"、"如何关联"
  • 完全无需逐场景训练:比 RelationField 快4.7倍、省7.6倍显存,实现真正可扩展的3D理解
  • MWP + ROFA 组合巧妙:分别净化几何和语义,简单有效,消融验证充分
  • 双路场景图设计:LLM提升提供语义丰富边,GNN预测提供高效覆盖,互补性强
  • 树搜索查询:自动适配查询粒度,统一物体级和部件级发现

局限性

  • ROFA 依赖 Z-score 阈值 \(\tau_{lang}\),需对每个数据集调参;在极端视角稀疏场景中可能不够鲁棒
  • GNN 预训练在 3RScan 的27类关系上,开放词汇关系的真正泛化能力(如罕见谓词)未被充分验证
  • ScanNet 3D语义分割提升有限(因评估协议要求固定高斯数量,MWP 被禁用)
  • LLM提升路径依赖 GPT-4V,成本高且可复现性受限
  • 未涉及动态场景或大规模室外场景的测试

相关工作

  • 语言场蒸馏(训练式): LangSplat、LERF、LangSplatV2 — 在渲染循环中加入视觉语言监督,但逐场景训练低效
  • 语言场蒸馏(无训练式): Occam's LGS (MAP闭式解)、Dr.Splat (top-k截断)、VALA (可见性门控)、Splat Feature Solver (稀疏线性逆问题)、THGS (层级聚类+注册) — 本文的基础框架
  • 3D场景图: ConceptGraphs (LLM推理+文本图)、GaussianGraph (逐场景训练+隐式关系)、RelationField (射线对+逐场景优化) — 均有效率或显式性不足的问题
  • 开放词汇场景图: Open3DSG (预分割点云+图Transformer) — 本文GNN设计的参考

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次统一层级高斯表示与显式场景图,MWP/ROFA设计简洁有效
  • 实验充分度: ⭐⭐⭐⭐ — 四个数据集/三类任务,消融完整,但ScanNet提升有限的解释略显牵强
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机论证充分,图示信息量大
  • 价值: ⭐⭐⭐⭐ — 无训练+高效+多任务统一是3DGS语义理解的重要方向,场景图构建有实用价值