HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation¶

会议: CVPR 2026
arXiv: 2603.12696
代码: 待确认
领域: 视觉语言导航 / 具身智能 / 层级规划
关键词: 视觉语言导航, 拓扑先验, 反应式停止, 层级导航框架, MLLM, osmAG

一句话总结¶

提出层级导航框架 HaltNav，结合轻量文本拓扑图 (osmAG) 全局规划 + VLN 模型局部执行，并引入反应式视觉停止 (RVH) 机制在遇到未知障碍时实时中断、更新拓扑、重规划绕行，在仿真和真实机器人上均显著优于基线。

背景与动机¶

VLN 正从逐步指令跟随转向开放词汇、目标驱动的自主导航。然而：(1) 现有方法依赖密集 2D/3D 度量地图，构建和维护代价高昂，且存在模态对齐问题；(2) 纯静态先验地图在真实部署中脆弱——门可能关闭、走廊可能拥堵，导致执行时失败；(3) 用户通常只给出简短目标描述 (如"带我去洗手间") 而非逐步路线指令。需要一个既能利用结构先验做长程规划、又能在局部异常时反应性调整的框架。

核心问题¶

如何在资源受限条件下利用轻量拓扑先验实现长程 VLN，同时在环境动态变化时保持鲁棒导航？

方法详解¶

整体框架¶

层级半马尔可夫决策过程: (1) 宏观层: LLM-based GGTD 在 osmAG 上做房间级全局规划，将路线拆解为门到门的局部子指令; (2) 微观层: 端到端 VLN 模型 (InternVLA-N1) 执行局部导航; (3) 监控层: VLM-based RVH 实时监测视觉流，检测阻塞时中断循环、更新拓扑、触发重规划。

关键设计¶

osmAG 文本拓扑先验: 基于 OpenStreetMap 格式的区域图，将环境表示为区域多边形 (节点) + 通道/门 (边) 的层级结构，可从平面图/CAD 文件自动生成，纯文本格式天然适配 LLM 推理。
GGTD (Graph-Grounded Task Dispatcher): 用 Gemini 3 Flash 直接读取 osmAG 文本表示、结合目标指令和历史轨迹，输出下一个宏观路径点作为 VLN 子指令 \(m_i = \text{GGTD}(\mathcal{P}(\mathcal{G}_t), I_{target}, \mathcal{H}_{i-1})\)。
RVH (Reactive Visual Halting): 融合底层碰撞累积 (\(\sum c_{t-j} \geq \tau_c\)，物理安全网) 和顶层 MLLM 语义判断 (\(s_{MLLM}(o_t, m_i)\)，识别关门/拥堵等) 的双信号终止函数。
拓扑动态更新: 检测到阻塞时，将对应通道在 passage-level 图中的代价设为 \(\infty\)，从而自动绕行，比提示词注入更可靠。
数据合成管线: 物理引擎注入 3D 障碍 + 扩散模型 inpainting 生成反事实阻塞场景，构建 (正常/阻塞) 配对数据用 LoRA SFT 微调 Qwen-2.5-VL-7B。

损失函数 / 训练策略¶

RVH 微调: 标准 SFT 负对数似然 \(\mathcal{L}_{SFT} = -\sum \log p_{MLLM}(y_j | y_{<j}, X; \Theta)\)
低秩适配 (LoRA) 微调 Qwen-2.5-VL-7B 用于障碍判断
VLN 执行器 (InternVLA-N1) 使用预训练权重，不额外训练

实验关键数据¶

方法	L0 SR-B/O (%)	L0 Drop	L2 SR-B/O (%)	L2 Drop
Navid	73.1/6.3	66.9	49.4/0.0	49.4
OmniNav	90.6/12.5	78.1	54.4/6.3	48.1
StreamVLN	72.5/37.5	35.0	36.3/18.8	17.5
InternVLA-N1	58.8/12.5	46.3	33.1/0.0	33.1
HaltNav	79.4/50.0	29.4	55.6/31.3	24.4

仿真: HaltNav 在所有指令级别上 Drop 值最低 (障碍注入后性能衰减最小)
真实机器人: HaltNav L0-O 56.66% SR (vs StreamVLN 0%, InternVLA-N1 0%); L2-O 46.66% SR
OmniNav B-column 最高但依赖多相机全景观测 (硬件成本高); HaltNav 仅用单相机

消融实验要点¶

无 osmAG 先验: L2 (仅目标指令) 下所有基线崩溃 (InternVLA-N1 真实世界 0% SR)
无 RVH: 障碍注入后性能剧降，Drop 值大幅上升
真实世界 vs 仿真: 优势在复杂拓扑环境下更加显著——大学建筑长走廊+多出口比模拟家庭环境更具挑战性
L0→L2 指令退化: HaltNav 的 SR 相对下降 30%，基线下降 40-44%，说明拓扑先验降低了对详细指令的依赖

亮点 / 我学到了什么¶

纯文本 osmAG 拓扑先验是极其优雅的设计——token 高效、LLM 原生可读、从平面图自动生成，完美回避了密集地图重建
"碰撞累积 + MLLM 语义判断" 的双信号停止策略兼顾了物理安全和语义理解
直接修改图的边权 (设为 ∞) 比提示词注入障碍描述更可靠——避免上下文溢出和空间幻觉
扩散模型 inpainting 生成障碍训练数据的思路可推广到其他需要hard negative的视觉任务

局限性 / 可改进方向¶

osmAG 需要预先获取建筑平面图/CAD，在完全未知环境中不适用
仿真数据集仅 5 个 HM3D 场景、176 任务，规模有限
RVH 依赖 VLM 判断阻塞的准确性，在复杂/模糊场景下可能误判
未与使用 2D/3D 度量地图的方法做直接对比 (如 MapNav)
仅测试室内场景，室外大规模导航场景未验证

与相关工作的对比¶

OmniNav: 全景多相机 + 前瞻探索，B-column SR 最高但需多相机硬件，HaltNav 仅用单相机且障碍鲁棒性远超
osmAG-LLM: 同样用 osmAG 做全局规划，但无反应式停止和动态更新能力; HaltNav 补充了闭环条件
ReCAPA: 层级预测校正框架，但被动重规划; HaltNav 主动视觉监测 + 即时中断 + 拓扑裁剪

评分¶

新颖性: ⭐⭐⭐⭐ (轻量拓扑先验 + 反应式停止 + 生成式数据合成的完整组合)
实验充分度: ⭐⭐⭐⭐ (仿真+真实机器人、三级指令粒度、障碍注入)
写作质量: ⭐⭐⭐⭐ (系统设计清晰，形式化完整)
价值: ⭐⭐⭐⭐ (面向真实部署的实用框架设计)