跳转至

HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation

会议: CVPR 2026
arXiv: 2603.12696
代码: 待确认
领域: 视觉语言导航 / 具身智能 / 层级规划
关键词: 视觉语言导航, 拓扑先验, 反应式停止, 层级导航框架, MLLM, osmAG

一句话总结

提出层级导航框架 HaltNav,结合轻量文本拓扑图 (osmAG) 全局规划 + VLN 模型局部执行,并引入反应式视觉停止 (RVH) 机制在遇到未知障碍时实时中断、更新拓扑、重规划绕行,在仿真和真实机器人上均显著优于基线。

背景与动机

VLN 正从逐步指令跟随转向开放词汇、目标驱动的自主导航。然而:(1) 现有方法依赖密集 2D/3D 度量地图,构建和维护代价高昂,且存在模态对齐问题;(2) 纯静态先验地图在真实部署中脆弱——门可能关闭、走廊可能拥堵,导致执行时失败;(3) 用户通常只给出简短目标描述 (如"带我去洗手间") 而非逐步路线指令。需要一个既能利用结构先验做长程规划、又能在局部异常时反应性调整的框架。

核心问题

如何在资源受限条件下利用轻量拓扑先验实现长程 VLN,同时在环境动态变化时保持鲁棒导航?

方法详解

整体框架

层级半马尔可夫决策过程: (1) 宏观层: LLM-based GGTD 在 osmAG 上做房间级全局规划,将路线拆解为门到门的局部子指令; (2) 微观层: 端到端 VLN 模型 (InternVLA-N1) 执行局部导航; (3) 监控层: VLM-based RVH 实时监测视觉流,检测阻塞时中断循环、更新拓扑、触发重规划。

关键设计

  1. osmAG 文本拓扑先验: 基于 OpenStreetMap 格式的区域图,将环境表示为区域多边形 (节点) + 通道/门 (边) 的层级结构,可从平面图/CAD 文件自动生成,纯文本格式天然适配 LLM 推理。
  2. GGTD (Graph-Grounded Task Dispatcher): 用 Gemini 3 Flash 直接读取 osmAG 文本表示、结合目标指令和历史轨迹,输出下一个宏观路径点作为 VLN 子指令 \(m_i = \text{GGTD}(\mathcal{P}(\mathcal{G}_t), I_{target}, \mathcal{H}_{i-1})\)
  3. RVH (Reactive Visual Halting): 融合底层碰撞累积 (\(\sum c_{t-j} \geq \tau_c\),物理安全网) 和顶层 MLLM 语义判断 (\(s_{MLLM}(o_t, m_i)\),识别关门/拥堵等) 的双信号终止函数。
  4. 拓扑动态更新: 检测到阻塞时,将对应通道在 passage-level 图中的代价设为 \(\infty\),从而自动绕行,比提示词注入更可靠。
  5. 数据合成管线: 物理引擎注入 3D 障碍 + 扩散模型 inpainting 生成反事实阻塞场景,构建 (正常/阻塞) 配对数据用 LoRA SFT 微调 Qwen-2.5-VL-7B。

损失函数 / 训练策略

  • RVH 微调: 标准 SFT 负对数似然 \(\mathcal{L}_{SFT} = -\sum \log p_{MLLM}(y_j | y_{<j}, X; \Theta)\)
  • 低秩适配 (LoRA) 微调 Qwen-2.5-VL-7B 用于障碍判断
  • VLN 执行器 (InternVLA-N1) 使用预训练权重,不额外训练

实验关键数据

方法 L0 SR-B/O (%) L0 Drop L2 SR-B/O (%) L2 Drop
Navid 73.1/6.3 66.9 49.4/0.0 49.4
OmniNav 90.6/12.5 78.1 54.4/6.3 48.1
StreamVLN 72.5/37.5 35.0 36.3/18.8 17.5
InternVLA-N1 58.8/12.5 46.3 33.1/0.0 33.1
HaltNav 79.4/50.0 29.4 55.6/31.3 24.4
  • 仿真: HaltNav 在所有指令级别上 Drop 值最低 (障碍注入后性能衰减最小)
  • 真实机器人: HaltNav L0-O 56.66% SR (vs StreamVLN 0%, InternVLA-N1 0%); L2-O 46.66% SR
  • OmniNav B-column 最高但依赖多相机全景观测 (硬件成本高); HaltNav 仅用单相机

消融实验要点

  • 无 osmAG 先验: L2 (仅目标指令) 下所有基线崩溃 (InternVLA-N1 真实世界 0% SR)
  • 无 RVH: 障碍注入后性能剧降,Drop 值大幅上升
  • 真实世界 vs 仿真: 优势在复杂拓扑环境下更加显著——大学建筑长走廊+多出口比模拟家庭环境更具挑战性
  • L0→L2 指令退化: HaltNav 的 SR 相对下降 30%,基线下降 40-44%,说明拓扑先验降低了对详细指令的依赖

亮点 / 我学到了什么

  • 纯文本 osmAG 拓扑先验是极其优雅的设计——token 高效、LLM 原生可读、从平面图自动生成,完美回避了密集地图重建
  • "碰撞累积 + MLLM 语义判断" 的双信号停止策略兼顾了物理安全和语义理解
  • 直接修改图的边权 (设为 ∞) 比提示词注入障碍描述更可靠——避免上下文溢出和空间幻觉
  • 扩散模型 inpainting 生成障碍训练数据的思路可推广到其他需要hard negative的视觉任务

局限性 / 可改进方向

  • osmAG 需要预先获取建筑平面图/CAD,在完全未知环境中不适用
  • 仿真数据集仅 5 个 HM3D 场景、176 任务,规模有限
  • RVH 依赖 VLM 判断阻塞的准确性,在复杂/模糊场景下可能误判
  • 未与使用 2D/3D 度量地图的方法做直接对比 (如 MapNav)
  • 仅测试室内场景,室外大规模导航场景未验证

与相关工作的对比

  • OmniNav: 全景多相机 + 前瞻探索,B-column SR 最高但需多相机硬件,HaltNav 仅用单相机且障碍鲁棒性远超
  • osmAG-LLM: 同样用 osmAG 做全局规划,但无反应式停止和动态更新能力; HaltNav 补充了闭环条件
  • ReCAPA: 层级预测校正框架,但被动重规划; HaltNav 主动视觉监测 + 即时中断 + 拓扑裁剪

评分

  • 新颖性: ⭐⭐⭐⭐ (轻量拓扑先验 + 反应式停止 + 生成式数据合成的完整组合)
  • 实验充分度: ⭐⭐⭐⭐ (仿真+真实机器人、三级指令粒度、障碍注入)
  • 写作质量: ⭐⭐⭐⭐ (系统设计清晰,形式化完整)
  • 价值: ⭐⭐⭐⭐ (面向真实部署的实用框架设计)