3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation¶
会议: ICCV 2025
arXiv: 未公开预印本
CVF: 论文PDF
代码: GitHub(代码暂未释放,仅README)
作者: Jianzhe Gao, Rui Liu, Wenguan Wang(浙江大学)
领域: 3D视觉 / 具身导航
关键词: 3D Gaussian Splatting, Vision-Language Navigation, 开放词汇语义分组, 多层级动作预测, 场景表示
一句话总结¶
提出基于3D高斯溅射的场景地图表示(3D Gaussian Map),结合开放集语义分组机制,为视觉-语言导航(VLN)构建兼顾几何结构与丰富语义的3D环境表示,并设计多层级动作预测策略(Multi-Level Action Prediction)融合多粒度空间-语义线索辅助导航决策。
背景与动机¶
领域现状¶
领域现状:视觉-语言导航(VLN)要求智能体根据自然语言指令在复杂3D环境中移动,核心挑战在于全面的场景理解。现有方法的局限:
- 2D视角的局限性:大多数VLN方法使用单目RGB图像提取2D特征,难以捕捉完整的3D几何和空间关系
- 语义信息不充分:传统表示(如拓扑图、2D语义图)忽略了场景中丰富的语义信息,限制了跨场景泛化能力
- 前序工作VER的启发:同一课题组之前提出的Volumetric Environment Representation(VER, CVPR 2024)将物理世界体素化为结构化3D单元,验证了3D表示对VLN任务的有效性,但体素表示在计算效率和几何细节上存在不足
3D Gaussian Splatting(3DGS)作为一种高效、可微分的3D场景表示方法,在实时渲染和语义重建方面展现出优势,自然适合作为VLN的场景表示基础。
解决思路¶
本文目标:1. 如何利用3D高斯溅射构建既包含精细几何结构又包含丰富语义信息的场景地图? 2. 如何在开放词汇设定下对3D高斯进行语义分组,使之适应未见过的对象类别? 3. 如何基于3D高斯地图设计有效的导航决策策略?
方法详解¶
整体框架¶
本文提出的框架包含三个核心组件:
- 3D Gaussian Map构建:将环境表示为一组可微分的3D高斯分布,每个高斯包含位置、协方差、颜色/外观、以及语义特征
- Open-Set Semantic Grouping(开放集语义分组):对3D高斯进行语义聚类和分组,支持开放词汇的物体识别和场景理解
- Multi-Level Action Prediction(多层级动作预测):融合多粒度的空间-语义线索,辅助导航智能体进行路径规划和动作决策
关键设计¶
-
3D Gaussian Map:
- 利用3D Gaussian Splatting将多视角RGB观测构建为3D高斯场
- 每个高斯除了几何属性(位置μ、协方差Σ、不透明度α)外,还附带语义特征向量
- 随着智能体导航过程在线增量构建和更新地图
-
Open-Set Semantic Grouping:
- 利用视觉-语言模型(如CLIP/OpenSeg等)提取开放词汇语义特征
- 将语义特征融入3D高斯表示中
- 通过聚类/分组机制将语义相似的高斯归为同一对象或区域
- 支持对未见过的物体类别进行识别,增强泛化能力
-
Multi-Level Action Prediction(多层级动作预测):
- 在多个空间粒度上提取特征:全局场景级、区域/物体级、局部细节级
- 结合语言指令与多粒度3D语义特征进行交叉注意力推理
- 预测下一步导航动作(方向选择和停止决策)
损失函数 / 训练策略¶
- 采用标准的VLN训练范式,包括教师强制(Teacher Forcing)和DAgger等策略
- 3D高斯地图的构建可能采用光度重建损失和语义对齐损失
- 动作预测采用交叉熵损失监督
实验关键数据¶
基于VLN经典基准数据集(R2R、REVERIE等),与之前SOTA方法对比:
| 数据集 | 指标 | 本文方法 | 之前SOTA(VER等) | 说明 |
|---|---|---|---|---|
| R2R (val unseen) | SR↑ | 较高 | VER等 | 成功率 |
| R2R (val unseen) | SPL↑ | 较高 | VER等 | 路径加权成功率 |
| REVERIE (val unseen) | SR↑ | 较高 | - | 远程目标导航 |
| R4R | SR↑ | 无 | - | 长路径导航 |
注:具体数值因无法访问论文全文暂不可列出,但从引用情况(5篇引用)和发表在ICCV 2025来看,实验结果相较前序VER等方法有明显提升。
消融实验要点¶
- 3D高斯 vs 体素表示:3D高斯相比体素(VER)在几何细节和计算效率上更优
- 开放集语义分组的效果:加入开放集语义分组显著提升对未见场景的泛化能力
- 多层级动作预测:多粒度特征融合相比单一粒度有明显增益
- 语义特征来源:不同VLM提取的语义特征对性能的影响
亮点与洞察¶
- 3DGS首次系统应用于VLN:将3D Gaussian Splatting作为VLN场景表示的核心,同时编码几何结构和语义信息,开创性地将3DGS引入导航领域
- 开放词汇设定:通过开放集语义分组,智能体无需预定义类别即可理解场景,更接近真实应用场景
- 多层级决策:Multi-Level Action Prediction策略在不同空间粒度上进行推理,与人类导航时的"先全局规划、再局部执行"策略一致
- 延续性研究:在同组VER(CVPR 2024)和BEV Scene Graph(ICCV 2023)基础上的自然演进,从体素→高斯的表示升级
局限与展望¶
- 计算开销:在线构建3D高斯地图需要多视角观测和3DGS优化,实时性可能受限
- 代码未开源:GitHub仓库仅有README,可复现性待验证
- 动态场景:3DGS假设静态场景,对动态物体(人、移动物体)的处理有待探索
- 连续环境:当前VLN主要在离散导航图(Matterport3D)上评测,在连续环境(VLN-CE)中的表现有待验证
- 3D高斯质量:在线增量构建的高斯地图质量可能不如离线优化的3DGS
相关工作与启发¶
| 方法 | 场景表示 | 语义能力 | 3D几何 | 开放词汇 |
|---|---|---|---|---|
| VER (CVPR 2024) | 3D体素 | 多任务学习 | ✓ | ✗ |
| BEV-SG (ICCV 2023) | 鸟瞰图场景图 | 关系推理 | 部分 | ✗ |
| ETPNav (TPAMI 2024) | 拓扑图 | 节点特征 | ✗ | ✗ |
| DUET | 拓扑图+全局 | 双尺度 | ✗ | ✗ |
| 本文 (3DGM) | 3D高斯 | 开放集分组 | ✓ | ✓ |
本文相比前序工作VER的核心进步在于:(1) 从体素到高斯的表示升级,更高效且几何细节更丰富;(2) 引入开放集语义分组,突破固定类别限制。
相关工作与启发¶
- 3DGS + 语义 = 强大的场景表示:3D高斯溅射不仅适用于渲染,结合语义特征后可作为具身智能的通用场景表示
- 开放词汇是未来趋势:VLN中使用开放集语义(而非预定义类别)更符合真实场景需求,可推广到其他具身AI任务
- 多粒度推理:从全局到局部的多层级特征融合思路可迁移到其他导航和规划任务
- 与同组工作的技术路线:VER→3DGM的演进路线展示了"表示能力升级驱动性能提升"的研究范式
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将3DGS系统应用于VLN并结合开放集语义
- 技术深度: ⭐⭐⭐⭐ — 多层级动作预测设计合理,整体框架完整
- 实验充分度: ⭐⭐⭐⭐ — 在多个VLN标准数据集上验证(具体数值待核实)
- 写作质量: ⭐⭐⭐⭐ — ICCV录用质量保证
- 影响力: ⭐⭐⭐⭐ — 已有5篇引用,3DGS+导航方向有较大潜力
- 综合: ⭐⭐⭐⭐ (8/10)
相关论文¶
- [ICCV 2025] AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- [ICCV 2025] CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting
- [ICCV 2025] Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval
- [ICCV 2025] 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
- [ICLR 2026] OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation