HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation¶
会议: CVPR 2026
arXiv: 2603.12696
代码: 待确认
领域: 视觉语言导航 / 具身智能 / 层级规划
关键词: 视觉语言导航, 拓扑先验, 反应式停止, 层级导航框架, MLLM, osmAG
一句话总结¶
提出层级导航框架 HaltNav,结合轻量文本拓扑图 (osmAG) 全局规划 + VLN 模型局部执行,并引入反应式视觉停止 (RVH) 机制在遇到未知障碍时实时中断、更新拓扑、重规划绕行,在仿真和真实机器人上均显著优于基线。
背景与动机¶
VLN 正从逐步指令跟随转向开放词汇、目标驱动的自主导航。然而:(1) 现有方法依赖密集 2D/3D 度量地图,构建和维护代价高昂,且存在模态对齐问题;(2) 纯静态先验地图在真实部署中脆弱——门可能关闭、走廊可能拥堵,导致执行时失败;(3) 用户通常只给出简短目标描述 (如"带我去洗手间") 而非逐步路线指令。需要一个既能利用结构先验做长程规划、又能在局部异常时反应性调整的框架。
核心问题¶
如何在资源受限条件下利用轻量拓扑先验实现长程 VLN,同时在环境动态变化时保持鲁棒导航?
方法详解¶
整体框架¶
层级半马尔可夫决策过程: (1) 宏观层: LLM-based GGTD 在 osmAG 上做房间级全局规划,将路线拆解为门到门的局部子指令; (2) 微观层: 端到端 VLN 模型 (InternVLA-N1) 执行局部导航; (3) 监控层: VLM-based RVH 实时监测视觉流,检测阻塞时中断循环、更新拓扑、触发重规划。
关键设计¶
- osmAG 文本拓扑先验: 基于 OpenStreetMap 格式的区域图,将环境表示为区域多边形 (节点) + 通道/门 (边) 的层级结构,可从平面图/CAD 文件自动生成,纯文本格式天然适配 LLM 推理。
- GGTD (Graph-Grounded Task Dispatcher): 用 Gemini 3 Flash 直接读取 osmAG 文本表示、结合目标指令和历史轨迹,输出下一个宏观路径点作为 VLN 子指令 \(m_i = \text{GGTD}(\mathcal{P}(\mathcal{G}_t), I_{target}, \mathcal{H}_{i-1})\)。
- RVH (Reactive Visual Halting): 融合底层碰撞累积 (\(\sum c_{t-j} \geq \tau_c\),物理安全网) 和顶层 MLLM 语义判断 (\(s_{MLLM}(o_t, m_i)\),识别关门/拥堵等) 的双信号终止函数。
- 拓扑动态更新: 检测到阻塞时,将对应通道在 passage-level 图中的代价设为 \(\infty\),从而自动绕行,比提示词注入更可靠。
- 数据合成管线: 物理引擎注入 3D 障碍 + 扩散模型 inpainting 生成反事实阻塞场景,构建 (正常/阻塞) 配对数据用 LoRA SFT 微调 Qwen-2.5-VL-7B。
损失函数 / 训练策略¶
- RVH 微调: 标准 SFT 负对数似然 \(\mathcal{L}_{SFT} = -\sum \log p_{MLLM}(y_j | y_{<j}, X; \Theta)\)
- 低秩适配 (LoRA) 微调 Qwen-2.5-VL-7B 用于障碍判断
- VLN 执行器 (InternVLA-N1) 使用预训练权重,不额外训练
实验关键数据¶
| 方法 | L0 SR-B/O (%) | L0 Drop | L2 SR-B/O (%) | L2 Drop |
|---|---|---|---|---|
| Navid | 73.1/6.3 | 66.9 | 49.4/0.0 | 49.4 |
| OmniNav | 90.6/12.5 | 78.1 | 54.4/6.3 | 48.1 |
| StreamVLN | 72.5/37.5 | 35.0 | 36.3/18.8 | 17.5 |
| InternVLA-N1 | 58.8/12.5 | 46.3 | 33.1/0.0 | 33.1 |
| HaltNav | 79.4/50.0 | 29.4 | 55.6/31.3 | 24.4 |
- 仿真: HaltNav 在所有指令级别上 Drop 值最低 (障碍注入后性能衰减最小)
- 真实机器人: HaltNav L0-O 56.66% SR (vs StreamVLN 0%, InternVLA-N1 0%); L2-O 46.66% SR
- OmniNav B-column 最高但依赖多相机全景观测 (硬件成本高); HaltNav 仅用单相机
消融实验要点¶
- 无 osmAG 先验: L2 (仅目标指令) 下所有基线崩溃 (InternVLA-N1 真实世界 0% SR)
- 无 RVH: 障碍注入后性能剧降,Drop 值大幅上升
- 真实世界 vs 仿真: 优势在复杂拓扑环境下更加显著——大学建筑长走廊+多出口比模拟家庭环境更具挑战性
- L0→L2 指令退化: HaltNav 的 SR 相对下降 30%,基线下降 40-44%,说明拓扑先验降低了对详细指令的依赖
亮点 / 我学到了什么¶
- 纯文本 osmAG 拓扑先验是极其优雅的设计——token 高效、LLM 原生可读、从平面图自动生成,完美回避了密集地图重建
- "碰撞累积 + MLLM 语义判断" 的双信号停止策略兼顾了物理安全和语义理解
- 直接修改图的边权 (设为 ∞) 比提示词注入障碍描述更可靠——避免上下文溢出和空间幻觉
- 扩散模型 inpainting 生成障碍训练数据的思路可推广到其他需要hard negative的视觉任务
局限性 / 可改进方向¶
- osmAG 需要预先获取建筑平面图/CAD,在完全未知环境中不适用
- 仿真数据集仅 5 个 HM3D 场景、176 任务,规模有限
- RVH 依赖 VLM 判断阻塞的准确性,在复杂/模糊场景下可能误判
- 未与使用 2D/3D 度量地图的方法做直接对比 (如 MapNav)
- 仅测试室内场景,室外大规模导航场景未验证
与相关工作的对比¶
- OmniNav: 全景多相机 + 前瞻探索,B-column SR 最高但需多相机硬件,HaltNav 仅用单相机且障碍鲁棒性远超
- osmAG-LLM: 同样用 osmAG 做全局规划,但无反应式停止和动态更新能力; HaltNav 补充了闭环条件
- ReCAPA: 层级预测校正框架,但被动重规划; HaltNav 主动视觉监测 + 即时中断 + 拓扑裁剪
评分¶
- 新颖性: ⭐⭐⭐⭐ (轻量拓扑先验 + 反应式停止 + 生成式数据合成的完整组合)
- 实验充分度: ⭐⭐⭐⭐ (仿真+真实机器人、三级指令粒度、障碍注入)
- 写作质量: ⭐⭐⭐⭐ (系统设计清晰,形式化完整)
- 价值: ⭐⭐⭐⭐ (面向真实部署的实用框架设计)