FloorPlan-VLN: Floor Plan Guided Vision-Language Navigation¶
日期: 2026-03-18
arXiv: 2603.17437
领域: 机器人
关键词: 平面图导航, VLN, 空间推理, MLLM, 双视角对齐
一句话总结¶
提出平面图引导的 VLN 新范式——用现成平面图替代冗长逐步指令作为全局空间先验,构建 10K+ episode 数据集(语义标注平面图 + Matterport3D 轨迹 + 简洁指令),提出 FP-Nav 通过双视角时空对齐视频 + 辅助推理任务实现平面图-视觉-指令对齐,导航成功率相对提升 60%+,在真实四足机器人上零样本部署验证。
研究背景与动机¶
-
领域现状: VLN 任务要求智能体按语言指令导航。现有范式严重依赖冗长的逐步指令("左转,经过厨房..."),缺乏全局空间先验。大量工作聚焦于构建增量式环境表示(网格/体素/拓扑图),但需要实时扫描重建,开销大。
-
现有痛点: 真实世界中建筑平面图随处可见(商场、医院、办公楼),人类能直觉理解平面图+简短指令即可导航。但现有智能体完全无法利用——(a) 既有 VLN 数据集缺少平面图元数据;(b) 手绘地图导航研究关注从草图提取线索而非跟随语言指令;(c) 平面图点导航仅用墙壁边界做定位,无语义信息。
-
核心 idea: 平面图作为统一空间接口(可来自精确图纸或手绘草图),配合简洁的区域级指令即可导航。利用 MLLM 预训练的图表理解能力,通过双视角时空对齐视频和辅助推理任务实现跨模态对齐。
方法详解¶
数据集构建:FloorPlan-VLN¶
- 平面图提取: 从 Matterport3D 72 个场景提取向量化平面图,每个区域用闭合多边形 + 语义类型(30 种)+ 唯一标识符表示
- 轨迹处理: 从 R2R-CE/RxR-CE 获取轨迹,路点映射到平面图区域(点包含检测),过滤跨楼层和冗余探索
- 指令简化: Qwen-2.5-VL 将冗长指令压缩为简洁形式——仅指定起始/目标区域 + 停止条件
- 规模: FloorPlan-R2R: 9K+ episodes, FloorPlan-RxR: 16K+ episodes,130+ 平面图,1K+ 区域标注
FP-Nav 框架(Qwen-2.5-VL 骨干)¶
-
双视角时空对齐视频(核心设计)
- 每个时间步 \(t\),将自主视角 \(\mathbf{O}_t\) 与动态平面图 \(\mathbf{G}_t\)(标注当前位置和历史轨迹)水平拼接
- 对比四种输入策略:(a) 静态分离 SR=2.5%;(b) 双流时序 SR=4.2%;(c) 交错帧 SR=2.6%;(d) 时空对齐 SR=20.9%——5-8 倍差距
- 模拟人类同时看周围环境和地图上位置的认知过程
-
三个辅助推理任务
- 区域定位: 描述观察并推断所在区域类型——增强观察-平面图对应
- 轨迹推理: 总结已访问区域、识别当前位置、预测下一区域——增强长程记忆
- 指令摘要: 给定导航视频反推原始指令——增强指令-视觉对齐
- 去掉全部辅助任务 SR 降 15%
-
噪声鲁棒性建模: 动作噪声(位移/转向高斯扰动)+ 平面图尺度噪声 + 几何抖动
实验关键数据¶
主结果(FloorPlan-R2R)¶
| 方法 | Val-Seen SR | Val-Unseen SR | Val-Unseen SPL |
|---|---|---|---|
| Qwen-zs | 2.2 | 2.4 | 2.0 |
| StreamVLN-zs | 11.5 | 14.6 | 7.0 |
| Navid-ft | 18.1 | 17.0 | 13.0 |
| FP-Nav | 23.0 | 20.9 | 15.3 |
| FP-Nav-v | 38.1 | 25.9 | 21.7 |
| FP-Nav-v-rxr | 43.2 | 28.8 | 24.0 |
消融:输入策略 / 辅助任务 / 平面图依赖¶
| 实验 | SR ↑ |
|---|---|
| 时空对齐 vs 静态分离 | 20.9 vs 2.5 |
| 全部辅助 vs 无辅助 | 20.9 vs 17.8 |
| 完整平面图 vs 完全遮挡 | 20.9 vs 12.3 (-41%) |
| 完整平面图 vs 随机错误平面图 | 20.9 vs 9.1 (-56%) |
真实世界(Unitree Go2,1370m²,25 episodes)¶
- FP-Nav-v-rxr: SR=24.0%, NE=6.4m vs Navid-ft: SR=8.0%, NE=9.3m
亮点与洞察¶
- 范式转换:冗长指令→平面图+简洁指令,更自然的人机交互。平面图从精确图纸到手绘草图都支持
- 双视角时空对齐的压倒性优势:5-8 倍于其他输入策略,显式空间-时间对齐是跨模态融合的关键
- 噪声鲁棒性:模型学到了不变空间布局的全局推理,非过拟合精确坐标
局限性 / 可改进方向¶
- 依赖 oracle pose 渲染位置——真实部署需 SLAM/里程计集成
- 仅室内验证,多楼层导航未涉及(跨层仅 2.2%)
- 平面图需语义标注(区域类型+ID),无标注场景需额外处理
- 真实世界 SR=24% 仍较低
评分¶
- 新颖性: ⭐⭐⭐⭐ 平面图引导 VLN 是新且实用的范式
- 实验充分度: ⭐⭐⭐⭐⭐ 6 基线 + 4 输入策略 + 3 噪声类型 + 辅助任务消融 + 真实机器人
- 价值: ⭐⭐⭐⭐ 对室内机器人导航有直接应用前景
核心贡献:范式转换(冗长指令→平面图+简洁指令)+ 10K FloorPlan-VLN 数据集 + 双视角时空对齐 MLLM 导航 + 真实四足机器人部署