跳转至

MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation

会议: CVPR 2026
arXiv: 2511.10376
代码: https://github.com/ylwhxht/MSGNav (即将开源)
领域: 多模态VLM / 具身导航
关键词: 多模态3D场景图, 零样本导航, 开放词汇, 闭环推理, 最后一公里问题

一句话总结

提出多模态 3D 场景图(M3DSG)——用动态分配的图像替代纯文本关系边保留视觉线索,基于此构建 MSGNav 零样本导航系统,包含关键子图选择、自适应词汇更新、闭环推理和基于可见性的视角决策模块,在 GOAT-Bench 和 HM3D-ObjNav 上取得 SOTA。

背景与动机

具身导航是机器人的基础能力,实际部署要求开放词汇泛化和低训练开销,因此零样本方法比任务特定的 RL 训练更有吸引力。现有零样本方法构建显式 3D 场景图时存在三个问题:

  1. 视觉信息压缩为纯文本:将丰富的视觉观测压缩为文本关系描述,导致视觉证据不可逆丢失
  2. 构建成本高:为每对节点生成文本关系描述需要大量 LLM 调用
  3. 词汇受限:文本关系的预定义词汇限制了开放世界的泛化能力

核心问题

如何构建既保留视觉信息又高效可扩展的 3D 场景图,并基于此实现鲁棒的零样本开放词汇具身导航?

方法详解

整体框架

构建多模态 3D 场景图(M3DSG)→ 用 MSGNav 系统进行零样本导航推理

关键设计

  1. 多模态 3D 场景图(M3DSG): 核心创新——用动态分配的图像替代文本关系边。场景图中节点仍表示物体/区域,但节点间的关系不再用文本描述,而是用最能反映空间关系的视角图像来表达。这样保留了原始视觉证据,避免了文本压缩的信息损失。

  2. 关键子图选择模块(Key Subgraph Selection): 从完整的 M3DSG 中选择与当前导航目标最相关的子图,送入 LLM/VLM 进行推理。这避免了将整个场景图一次性处理的高开销。

  3. 自适应词汇更新模块(Adaptive Vocabulary Update): 动态更新导航过程中使用的词汇集合,支持开放词汇目标——即使目标描述中出现训练时未见的词汇也能处理。

  4. 闭环推理模块(Closed-Loop Reasoning): 在导航过程中持续更新场景理解和决策,而非一次性规划。每一步都根据最新观测进行推理调整。

  5. 基于可见性的视角决策模块: 解决零样本导航中的"最后一公里问题"——当 agent 已接近目标但需要确定合适的最终视角和可行位置时。通过显式建模目标可见性来选择最佳终点。

损失函数 / 训练策略

  • 零样本方法,无需训练
  • 利用预训练的视觉和语言模型进行推理

实验关键数据

  • 在 GOAT-Bench 和 HM3D-ObjNav 两个挑战性基准上达到 SOTA
  • 零样本设置下优于基于 RL 训练和其他零样本方法

亮点

  • 多模态场景图:用图像替代文本关系的设计巧妙——既保留了视觉证据又避免了文本压缩的信息瓶颈
  • 最后一公里问题的显式建模:之前被忽视的问题,MSGNav 首次系统解决
  • 零样本开放词汇:自适应词汇更新使系统能处理任意目标描述
  • 闭环推理:持续更新的决策比一次性规划更鲁棒

局限性 / 可改进方向

  • 仅基于摘要分析,具体模块的实现细节需参阅原文
  • M3DSG 的图像边存储可能增加内存开销
  • 动态图像分配策略的效率需要评估

与相关工作的对比

  • vs ConceptGraph / SayPlan: 纯文本场景图丢失视觉信息;M3DSG 保留图像证据
  • vs L3MVN / VoxelMap: 这些方法用体素或语义地图,缺乏图结构的灵活推理
  • vs SGoLAM: SGoLAM 也用场景图但依赖文本关系

启发与关联

  • 多模态场景图的概念可推广到其他需要空间推理的任务——如任务规划、人机交互
  • "最后一公里"问题的发现和解决对具身 AI 社区有参考价值
  • 图像关系边的设计思想可以与 VLM 的视觉理解能力更好地结合

评分

  • 新颖性: ⭐⭐⭐⭐ 多模态场景图用图像替代文本关系的设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 两个主流基准 SOTA
  • 写作质量: ⭐⭐⭐⭐ 摘要清晰,贡献明确
  • 价值: ⭐⭐⭐⭐ 为零样本具身导航提供了更强的场景表示