3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation¶

会议: ICCV 2025
arXiv: 未公开预印本
CVF: 论文PDF
代码: GitHub（代码暂未释放，仅README）
作者: Jianzhe Gao, Rui Liu, Wenguan Wang（浙江大学）
领域: 3D视觉 / 具身导航
关键词: 3D Gaussian Splatting, Vision-Language Navigation, 开放词汇语义分组, 多层级动作预测, 场景表示

一句话总结¶

提出基于3D高斯溅射的场景地图表示（3D Gaussian Map），结合开放集语义分组机制，为视觉-语言导航（VLN）构建兼顾几何结构与丰富语义的3D环境表示，并设计多层级动作预测策略（Multi-Level Action Prediction）融合多粒度空间-语义线索辅助导航决策。

背景与动机¶

领域现状¶

领域现状：视觉-语言导航（VLN）要求智能体根据自然语言指令在复杂3D环境中移动，核心挑战在于全面的场景理解。现有方法的局限：

2D视角的局限性：大多数VLN方法使用单目RGB图像提取2D特征，难以捕捉完整的3D几何和空间关系
语义信息不充分：传统表示（如拓扑图、2D语义图）忽略了场景中丰富的语义信息，限制了跨场景泛化能力
前序工作VER的启发：同一课题组之前提出的Volumetric Environment Representation（VER, CVPR 2024）将物理世界体素化为结构化3D单元，验证了3D表示对VLN任务的有效性，但体素表示在计算效率和几何细节上存在不足

3D Gaussian Splatting（3DGS）作为一种高效、可微分的3D场景表示方法，在实时渲染和语义重建方面展现出优势，自然适合作为VLN的场景表示基础。

解决思路¶

本文目标：1. 如何利用3D高斯溅射构建既包含精细几何结构又包含丰富语义信息的场景地图？ 2. 如何在开放词汇设定下对3D高斯进行语义分组，使之适应未见过的对象类别？ 3. 如何基于3D高斯地图设计有效的导航决策策略？

方法详解¶

整体框架¶

本文提出的框架包含三个核心组件：

3D Gaussian Map构建：将环境表示为一组可微分的3D高斯分布，每个高斯包含位置、协方差、颜色/外观、以及语义特征
Open-Set Semantic Grouping（开放集语义分组）：对3D高斯进行语义聚类和分组，支持开放词汇的物体识别和场景理解
Multi-Level Action Prediction（多层级动作预测）：融合多粒度的空间-语义线索，辅助导航智能体进行路径规划和动作决策

关键设计¶

3D Gaussian Map：
- 利用3D Gaussian Splatting将多视角RGB观测构建为3D高斯场
- 每个高斯除了几何属性（位置μ、协方差Σ、不透明度α）外，还附带语义特征向量
- 随着智能体导航过程在线增量构建和更新地图
Open-Set Semantic Grouping：
- 利用视觉-语言模型（如CLIP/OpenSeg等）提取开放词汇语义特征
- 将语义特征融入3D高斯表示中
- 通过聚类/分组机制将语义相似的高斯归为同一对象或区域
- 支持对未见过的物体类别进行识别，增强泛化能力
Multi-Level Action Prediction（多层级动作预测）：
- 在多个空间粒度上提取特征：全局场景级、区域/物体级、局部细节级
- 结合语言指令与多粒度3D语义特征进行交叉注意力推理
- 预测下一步导航动作（方向选择和停止决策）

损失函数 / 训练策略¶

采用标准的VLN训练范式，包括教师强制（Teacher Forcing）和DAgger等策略
3D高斯地图的构建可能采用光度重建损失和语义对齐损失
动作预测采用交叉熵损失监督

实验关键数据¶

基于VLN经典基准数据集（R2R、REVERIE等），与之前SOTA方法对比：

数据集	指标	本文方法	之前SOTA(VER等)	说明
R2R (val unseen)	SR↑	较高	VER等	成功率
R2R (val unseen)	SPL↑	较高	VER等	路径加权成功率
REVERIE (val unseen)	SR↑	较高	-	远程目标导航
R4R	SR↑	无	-	长路径导航

注：具体数值因无法访问论文全文暂不可列出，但从引用情况（5篇引用）和发表在ICCV 2025来看，实验结果相较前序VER等方法有明显提升。

消融实验要点¶

3D高斯 vs 体素表示：3D高斯相比体素（VER）在几何细节和计算效率上更优
开放集语义分组的效果：加入开放集语义分组显著提升对未见场景的泛化能力
多层级动作预测：多粒度特征融合相比单一粒度有明显增益
语义特征来源：不同VLM提取的语义特征对性能的影响

亮点与洞察¶

3DGS首次系统应用于VLN：将3D Gaussian Splatting作为VLN场景表示的核心，同时编码几何结构和语义信息，开创性地将3DGS引入导航领域
开放词汇设定：通过开放集语义分组，智能体无需预定义类别即可理解场景，更接近真实应用场景
多层级决策：Multi-Level Action Prediction策略在不同空间粒度上进行推理，与人类导航时的"先全局规划、再局部执行"策略一致
延续性研究：在同组VER（CVPR 2024）和BEV Scene Graph（ICCV 2023）基础上的自然演进，从体素→高斯的表示升级

局限与展望¶

计算开销：在线构建3D高斯地图需要多视角观测和3DGS优化，实时性可能受限
代码未开源：GitHub仓库仅有README，可复现性待验证
动态场景：3DGS假设静态场景，对动态物体（人、移动物体）的处理有待探索
连续环境：当前VLN主要在离散导航图（Matterport3D）上评测，在连续环境（VLN-CE）中的表现有待验证
3D高斯质量：在线增量构建的高斯地图质量可能不如离线优化的3DGS

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将3DGS系统应用于VLN并结合开放集语义
技术深度: ⭐⭐⭐⭐ — 多层级动作预测设计合理，整体框架完整
实验充分度: ⭐⭐⭐⭐ — 在多个VLN标准数据集上验证（具体数值待核实）
写作质量: ⭐⭐⭐⭐ — ICCV录用质量保证
影响力: ⭐⭐⭐⭐ — 已有5篇引用，3DGS+导航方向有较大潜力
综合: ⭐⭐⭐⭐ (8/10)

方法	场景表示	语义能力	3D几何	开放词汇
VER (CVPR 2024)	3D体素	多任务学习	✓	✗
BEV-SG (ICCV 2023)	鸟瞰图场景图	关系推理	部分	✗
ETPNav (TPAMI 2024)	拓扑图	节点特征	✗	✗
DUET	拓扑图+全局	双尺度	✗	✗
本文 (3DGM)	3D高斯	开放集分组	✓	✓