MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation¶
会议: CVPR 2026
arXiv: 2511.10376
代码: https://github.com/ylwhxht/MSGNav (即将开源)
领域: 多模态VLM / 具身导航
关键词: 多模态3D场景图, 零样本导航, 开放词汇, 闭环推理, 最后一公里问题
一句话总结¶
提出多模态 3D 场景图(M3DSG)——用动态分配的图像替代纯文本关系边保留视觉线索,基于此构建 MSGNav 零样本导航系统,包含关键子图选择、自适应词汇更新、闭环推理和基于可见性的视角决策模块,在 GOAT-Bench 和 HM3D-ObjNav 上取得 SOTA。
背景与动机¶
具身导航是机器人的基础能力,实际部署要求开放词汇泛化和低训练开销,因此零样本方法比任务特定的 RL 训练更有吸引力。现有零样本方法构建显式 3D 场景图时存在三个问题:
- 视觉信息压缩为纯文本:将丰富的视觉观测压缩为文本关系描述,导致视觉证据不可逆丢失
- 构建成本高:为每对节点生成文本关系描述需要大量 LLM 调用
- 词汇受限:文本关系的预定义词汇限制了开放世界的泛化能力
核心问题¶
如何构建既保留视觉信息又高效可扩展的 3D 场景图,并基于此实现鲁棒的零样本开放词汇具身导航?
方法详解¶
整体框架¶
构建多模态 3D 场景图(M3DSG)→ 用 MSGNav 系统进行零样本导航推理
关键设计¶
-
多模态 3D 场景图(M3DSG): 核心创新——用动态分配的图像替代文本关系边。场景图中节点仍表示物体/区域,但节点间的关系不再用文本描述,而是用最能反映空间关系的视角图像来表达。这样保留了原始视觉证据,避免了文本压缩的信息损失。
-
关键子图选择模块(Key Subgraph Selection): 从完整的 M3DSG 中选择与当前导航目标最相关的子图,送入 LLM/VLM 进行推理。这避免了将整个场景图一次性处理的高开销。
-
自适应词汇更新模块(Adaptive Vocabulary Update): 动态更新导航过程中使用的词汇集合,支持开放词汇目标——即使目标描述中出现训练时未见的词汇也能处理。
-
闭环推理模块(Closed-Loop Reasoning): 在导航过程中持续更新场景理解和决策,而非一次性规划。每一步都根据最新观测进行推理调整。
-
基于可见性的视角决策模块: 解决零样本导航中的"最后一公里问题"——当 agent 已接近目标但需要确定合适的最终视角和可行位置时。通过显式建模目标可见性来选择最佳终点。
损失函数 / 训练策略¶
- 零样本方法,无需训练
- 利用预训练的视觉和语言模型进行推理
实验关键数据¶
- 在 GOAT-Bench 和 HM3D-ObjNav 两个挑战性基准上达到 SOTA
- 零样本设置下优于基于 RL 训练和其他零样本方法
亮点¶
- 多模态场景图:用图像替代文本关系的设计巧妙——既保留了视觉证据又避免了文本压缩的信息瓶颈
- 最后一公里问题的显式建模:之前被忽视的问题,MSGNav 首次系统解决
- 零样本开放词汇:自适应词汇更新使系统能处理任意目标描述
- 闭环推理:持续更新的决策比一次性规划更鲁棒
局限性 / 可改进方向¶
- 仅基于摘要分析,具体模块的实现细节需参阅原文
- M3DSG 的图像边存储可能增加内存开销
- 动态图像分配策略的效率需要评估
与相关工作的对比¶
- vs ConceptGraph / SayPlan: 纯文本场景图丢失视觉信息;M3DSG 保留图像证据
- vs L3MVN / VoxelMap: 这些方法用体素或语义地图,缺乏图结构的灵活推理
- vs SGoLAM: SGoLAM 也用场景图但依赖文本关系
启发与关联¶
- 多模态场景图的概念可推广到其他需要空间推理的任务——如任务规划、人机交互
- "最后一公里"问题的发现和解决对具身 AI 社区有参考价值
- 图像关系边的设计思想可以与 VLM 的视觉理解能力更好地结合
评分¶
- 新颖性: ⭐⭐⭐⭐ 多模态场景图用图像替代文本关系的设计新颖
- 实验充分度: ⭐⭐⭐⭐ 两个主流基准 SOTA
- 写作质量: ⭐⭐⭐⭐ 摘要清晰,贡献明确
- 价值: ⭐⭐⭐⭐ 为零样本具身导航提供了更强的场景表示