Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method¶

会议: CVPR 2025
arXiv: 2412.09082
代码: https://hcplab-sysu.github.io/LH-VLN (有)
领域: 机器人 / 视觉语言导航
关键词: 长程导航, 多阶段任务, 视觉语言导航, 记忆机制, 基准评估

一句话总结¶

定义长程视觉语言导航（LH-VLN）任务，构建 NavGen 自动生成平台和 LHPR-VLN 基准（3260 个多阶段任务，平均 150 步），提出 MGDM 方法通过短期记忆模糊+长期记忆检索+CoT反馈实现多阶段导航，在 ISR 指标上超越 NaviLLM 23%。

领域现状：视觉语言导航（VLN）让智能体按自然语言指令在3D环境中导航。现有基准（如 R2R、VLN-CE）平均路径只有 55 步，指令涉及单一目标——远低于真实场景需求。

现有痛点：真实场景中的导航通常是多阶段的（"先去厨房拿杯子，再去客厅放到桌上"），涉及 150+ 步的长程规划。现有方法和基准都无法评估这种多阶段长程能力。

核心矛盾：长程多阶段导航需要处理子任务间的依赖关系（先完成 A 才能开始 B），但现有评估指标（如 SR、SPL）只看最终结果，无法衡量中间阶段的正确性。

切入角度：定义三个新指标（ISR/CSR/CGT）分别评估独立子任务成功率、条件子任务成功率和路径难度加权成功率。用 GPT-4 + NavGen 平台自动生成大规模多阶段任务。

核心 idea：新任务定义 + 新评估指标 + 大规模自动生成基准 = 长程多阶段 VLN。

NavGen 自动生成平台:
- 功能：从 3D 场景自动生成多阶段导航任务
- 核心思路：GPT-4 给定场景中的对象列表和拓扑结构，自动生成包含 2-4 个子任务的导航指令。每个子任务有独立的起点/终点和成功判定条件
MGDM（记忆引导的决策模型）:
- 功能：处理长程导航中的记忆管理
- 核心思路：短期记忆模糊（将近期观察压缩为摘要避免信息过载）+ 长期记忆检索（从历史中检索相关经验）+ Chain-of-Thought 反馈（用 CoT 分析当前状态并决定下一步行动）
三个新评估指标:
- ISR (独立子任务成功率)：每个子任务独立评估
- CSR (条件子任务成功率)：考虑子任务间依赖（前一个失败→后续全算失败）
- CGT：CSR 加路径难度权重

模仿学习 + 交叉熵损失。LHPR-VLN 包含 3260 个任务，覆盖 216 个 HM3D 场景，39% 两子任务 / 52.4% 三子任务 / 8.6% 四子任务。

方法	ISR	CSR	CGT
NaviLLM (微调)	3.81%	1.67%	2.54%
MGDM	4.69%	3.30%	5.83%

所有基线在 2-3 子任务上成功率接近 0%，说明长程导航极具挑战性。