跳转至

3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation

会议: ICCV 2025
arXiv: 未公开预印本
CVF: 论文PDF
代码: GitHub(代码暂未释放,仅README)
作者: Jianzhe Gao, Rui Liu, Wenguan Wang(浙江大学)
领域: 3D视觉 / 具身导航
关键词: 3D Gaussian Splatting, Vision-Language Navigation, 开放词汇语义分组, 多层级动作预测, 场景表示

一句话总结

提出基于3D高斯溅射的场景地图表示(3D Gaussian Map),结合开放集语义分组机制,为视觉-语言导航(VLN)构建兼顾几何结构与丰富语义的3D环境表示,并设计多层级动作预测策略(Multi-Level Action Prediction)融合多粒度空间-语义线索辅助导航决策。

背景与动机

领域现状

领域现状:视觉-语言导航(VLN)要求智能体根据自然语言指令在复杂3D环境中移动,核心挑战在于全面的场景理解。现有方法的局限:

  1. 2D视角的局限性:大多数VLN方法使用单目RGB图像提取2D特征,难以捕捉完整的3D几何和空间关系
  2. 语义信息不充分:传统表示(如拓扑图、2D语义图)忽略了场景中丰富的语义信息,限制了跨场景泛化能力
  3. 前序工作VER的启发:同一课题组之前提出的Volumetric Environment Representation(VER, CVPR 2024)将物理世界体素化为结构化3D单元,验证了3D表示对VLN任务的有效性,但体素表示在计算效率和几何细节上存在不足

3D Gaussian Splatting(3DGS)作为一种高效、可微分的3D场景表示方法,在实时渲染和语义重建方面展现出优势,自然适合作为VLN的场景表示基础。

解决思路

本文目标:1. 如何利用3D高斯溅射构建既包含精细几何结构又包含丰富语义信息的场景地图? 2. 如何在开放词汇设定下对3D高斯进行语义分组,使之适应未见过的对象类别? 3. 如何基于3D高斯地图设计有效的导航决策策略?

方法详解

整体框架

本文提出的框架包含三个核心组件:

  1. 3D Gaussian Map构建:将环境表示为一组可微分的3D高斯分布,每个高斯包含位置、协方差、颜色/外观、以及语义特征
  2. Open-Set Semantic Grouping(开放集语义分组):对3D高斯进行语义聚类和分组,支持开放词汇的物体识别和场景理解
  3. Multi-Level Action Prediction(多层级动作预测):融合多粒度的空间-语义线索,辅助导航智能体进行路径规划和动作决策

关键设计

  1. 3D Gaussian Map

    • 利用3D Gaussian Splatting将多视角RGB观测构建为3D高斯场
    • 每个高斯除了几何属性(位置μ、协方差Σ、不透明度α)外,还附带语义特征向量
    • 随着智能体导航过程在线增量构建和更新地图
  2. Open-Set Semantic Grouping

    • 利用视觉-语言模型(如CLIP/OpenSeg等)提取开放词汇语义特征
    • 将语义特征融入3D高斯表示中
    • 通过聚类/分组机制将语义相似的高斯归为同一对象或区域
    • 支持对未见过的物体类别进行识别,增强泛化能力
  3. Multi-Level Action Prediction(多层级动作预测)

    • 在多个空间粒度上提取特征:全局场景级、区域/物体级、局部细节级
    • 结合语言指令与多粒度3D语义特征进行交叉注意力推理
    • 预测下一步导航动作(方向选择和停止决策)

损失函数 / 训练策略

  • 采用标准的VLN训练范式,包括教师强制(Teacher Forcing)和DAgger等策略
  • 3D高斯地图的构建可能采用光度重建损失和语义对齐损失
  • 动作预测采用交叉熵损失监督

实验关键数据

基于VLN经典基准数据集(R2R、REVERIE等),与之前SOTA方法对比:

数据集 指标 本文方法 之前SOTA(VER等) 说明
R2R (val unseen) SR↑ 较高 VER等 成功率
R2R (val unseen) SPL↑ 较高 VER等 路径加权成功率
REVERIE (val unseen) SR↑ 较高 - 远程目标导航
R4R SR↑ - 长路径导航

注:具体数值因无法访问论文全文暂不可列出,但从引用情况(5篇引用)和发表在ICCV 2025来看,实验结果相较前序VER等方法有明显提升。

消融实验要点

  • 3D高斯 vs 体素表示:3D高斯相比体素(VER)在几何细节和计算效率上更优
  • 开放集语义分组的效果:加入开放集语义分组显著提升对未见场景的泛化能力
  • 多层级动作预测:多粒度特征融合相比单一粒度有明显增益
  • 语义特征来源:不同VLM提取的语义特征对性能的影响

亮点与洞察

  1. 3DGS首次系统应用于VLN:将3D Gaussian Splatting作为VLN场景表示的核心,同时编码几何结构和语义信息,开创性地将3DGS引入导航领域
  2. 开放词汇设定:通过开放集语义分组,智能体无需预定义类别即可理解场景,更接近真实应用场景
  3. 多层级决策:Multi-Level Action Prediction策略在不同空间粒度上进行推理,与人类导航时的"先全局规划、再局部执行"策略一致
  4. 延续性研究:在同组VER(CVPR 2024)和BEV Scene Graph(ICCV 2023)基础上的自然演进,从体素→高斯的表示升级

局限与展望

  1. 计算开销:在线构建3D高斯地图需要多视角观测和3DGS优化,实时性可能受限
  2. 代码未开源:GitHub仓库仅有README,可复现性待验证
  3. 动态场景:3DGS假设静态场景,对动态物体(人、移动物体)的处理有待探索
  4. 连续环境:当前VLN主要在离散导航图(Matterport3D)上评测,在连续环境(VLN-CE)中的表现有待验证
  5. 3D高斯质量:在线增量构建的高斯地图质量可能不如离线优化的3DGS

相关工作与启发

方法 场景表示 语义能力 3D几何 开放词汇
VER (CVPR 2024) 3D体素 多任务学习
BEV-SG (ICCV 2023) 鸟瞰图场景图 关系推理 部分
ETPNav (TPAMI 2024) 拓扑图 节点特征
DUET 拓扑图+全局 双尺度
本文 (3DGM) 3D高斯 开放集分组

本文相比前序工作VER的核心进步在于:(1) 从体素到高斯的表示升级,更高效且几何细节更丰富;(2) 引入开放集语义分组,突破固定类别限制。

相关工作与启发

  1. 3DGS + 语义 = 强大的场景表示:3D高斯溅射不仅适用于渲染,结合语义特征后可作为具身智能的通用场景表示
  2. 开放词汇是未来趋势:VLN中使用开放集语义(而非预定义类别)更符合真实场景需求,可推广到其他具身AI任务
  3. 多粒度推理:从全局到局部的多层级特征融合思路可迁移到其他导航和规划任务
  4. 与同组工作的技术路线:VER→3DGM的演进路线展示了"表示能力升级驱动性能提升"的研究范式

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将3DGS系统应用于VLN并结合开放集语义
  • 技术深度: ⭐⭐⭐⭐ — 多层级动作预测设计合理,整体框架完整
  • 实验充分度: ⭐⭐⭐⭐ — 在多个VLN标准数据集上验证(具体数值待核实)
  • 写作质量: ⭐⭐⭐⭐ — ICCV录用质量保证
  • 影响力: ⭐⭐⭐⭐ — 已有5篇引用,3DGS+导航方向有较大潜力
  • 综合: ⭐⭐⭐⭐ (8/10)

相关论文