MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation¶

会议: CVPR 2026
arXiv: 2511.10376
代码: https://github.com/ylwhxht/MSGNav (即将开源)
领域: 多模态VLM / 具身导航
关键词: 多模态3D场景图, 零样本导航, 开放词汇, 闭环推理, 最后一公里问题

一句话总结¶

提出多模态 3D 场景图（M3DSG）——用动态分配的图像替代纯文本关系边保留视觉线索，基于此构建 MSGNav 零样本导航系统，包含关键子图选择、自适应词汇更新、闭环推理和基于可见性的视角决策模块，在 GOAT-Bench 和 HM3D-ObjNav 上取得 SOTA。

具身导航是机器人的基础能力，实际部署要求开放词汇泛化和低训练开销，因此零样本方法比任务特定的 RL 训练更有吸引力。现有零样本方法构建显式 3D 场景图时存在三个问题：

如何构建既保留视觉信息又高效可扩展的 3D 场景图，并基于此实现鲁棒的零样本开放词汇具身导航？

构建多模态 3D 场景图（M3DSG）→ 用 MSGNav 系统进行零样本导航推理

多模态 3D 场景图（M3DSG）: 核心创新——用动态分配的图像替代文本关系边。场景图中节点仍表示物体/区域，但节点间的关系不再用文本描述，而是用最能反映空间关系的视角图像来表达。这样保留了原始视觉证据，避免了文本压缩的信息损失。
关键子图选择模块（Key Subgraph Selection）: 从完整的 M3DSG 中选择与当前导航目标最相关的子图，送入 LLM/VLM 进行推理。这避免了将整个场景图一次性处理的高开销。
自适应词汇更新模块（Adaptive Vocabulary Update）: 动态更新导航过程中使用的词汇集合，支持开放词汇目标——即使目标描述中出现训练时未见的词汇也能处理。
闭环推理模块（Closed-Loop Reasoning）: 在导航过程中持续更新场景理解和决策，而非一次性规划。每一步都根据最新观测进行推理调整。
基于可见性的视角决策模块: 解决零样本导航中的"最后一公里问题"——当 agent 已接近目标但需要确定合适的最终视角和可行位置时。通过显式建模目标可见性来选择最佳终点。