FloorPlan-VLN: Floor Plan Guided Vision-Language Navigation¶

日期: 2026-03-18
arXiv: 2603.17437
领域: 机器人
关键词: 平面图导航, VLN, 空间推理, MLLM, 双视角对齐

一句话总结¶

提出平面图引导的 VLN 新范式——用现成平面图替代冗长逐步指令作为全局空间先验，构建 10K+ episode 数据集（语义标注平面图 + Matterport3D 轨迹 + 简洁指令），提出 FP-Nav 通过双视角时空对齐视频 + 辅助推理任务实现平面图-视觉-指令对齐，导航成功率相对提升 60%+，在真实四足机器人上零样本部署验证。

研究背景与动机¶

领域现状: VLN 任务要求智能体按语言指令导航。现有范式严重依赖冗长的逐步指令（"左转，经过厨房..."），缺乏全局空间先验。大量工作聚焦于构建增量式环境表示（网格/体素/拓扑图），但需要实时扫描重建，开销大。
现有痛点: 真实世界中建筑平面图随处可见（商场、医院、办公楼），人类能直觉理解平面图+简短指令即可导航。但现有智能体完全无法利用——(a) 既有 VLN 数据集缺少平面图元数据；(b) 手绘地图导航研究关注从草图提取线索而非跟随语言指令；(c) 平面图点导航仅用墙壁边界做定位，无语义信息。
核心 idea: 平面图作为统一空间接口（可来自精确图纸或手绘草图），配合简洁的区域级指令即可导航。利用 MLLM 预训练的图表理解能力，通过双视角时空对齐视频和辅助推理任务实现跨模态对齐。

方法详解¶

数据集构建：FloorPlan-VLN¶

平面图提取: 从 Matterport3D 72 个场景提取向量化平面图，每个区域用闭合多边形 + 语义类型（30 种）+ 唯一标识符表示
轨迹处理: 从 R2R-CE/RxR-CE 获取轨迹，路点映射到平面图区域（点包含检测），过滤跨楼层和冗余探索
指令简化: Qwen-2.5-VL 将冗长指令压缩为简洁形式——仅指定起始/目标区域 + 停止条件
规模: FloorPlan-R2R: 9K+ episodes, FloorPlan-RxR: 16K+ episodes，130+ 平面图，1K+ 区域标注

FP-Nav 框架（Qwen-2.5-VL 骨干）¶

双视角时空对齐视频（核心设计）
- 每个时间步 \(t\)，将自主视角 \(\mathbf{O}_t\) 与动态平面图 \(\mathbf{G}_t\)（标注当前位置和历史轨迹）水平拼接
- 对比四种输入策略：(a) 静态分离 SR=2.5%；(b) 双流时序 SR=4.2%；(c) 交错帧 SR=2.6%；(d) 时空对齐 SR=20.9%——5-8 倍差距
- 模拟人类同时看周围环境和地图上位置的认知过程
三个辅助推理任务
- 区域定位: 描述观察并推断所在区域类型——增强观察-平面图对应
- 轨迹推理: 总结已访问区域、识别当前位置、预测下一区域——增强长程记忆
- 指令摘要: 给定导航视频反推原始指令——增强指令-视觉对齐
- 去掉全部辅助任务 SR 降 15%
噪声鲁棒性建模: 动作噪声（位移/转向高斯扰动）+ 平面图尺度噪声 + 几何抖动

实验关键数据¶

主结果（FloorPlan-R2R）¶

方法	Val-Seen SR	Val-Unseen SR	Val-Unseen SPL
Qwen-zs	2.2	2.4	2.0
StreamVLN-zs	11.5	14.6	7.0
Navid-ft	18.1	17.0	13.0
FP-Nav	23.0	20.9	15.3
FP-Nav-v	38.1	25.9	21.7
FP-Nav-v-rxr	43.2	28.8	24.0

消融：输入策略 / 辅助任务 / 平面图依赖¶

实验	SR ↑
时空对齐 vs 静态分离	20.9 vs 2.5
全部辅助 vs 无辅助	20.9 vs 17.8
完整平面图 vs 完全遮挡	20.9 vs 12.3 (-41%)
完整平面图 vs 随机错误平面图	20.9 vs 9.1 (-56%)

真实世界（Unitree Go2，1370m²，25 episodes）¶

FP-Nav-v-rxr: SR=24.0%, NE=6.4m vs Navid-ft: SR=8.0%, NE=9.3m

亮点与洞察¶

范式转换：冗长指令→平面图+简洁指令，更自然的人机交互。平面图从精确图纸到手绘草图都支持
双视角时空对齐的压倒性优势：5-8 倍于其他输入策略，显式空间-时间对齐是跨模态融合的关键
噪声鲁棒性：模型学到了不变空间布局的全局推理，非过拟合精确坐标

局限性 / 可改进方向¶

依赖 oracle pose 渲染位置——真实部署需 SLAM/里程计集成
仅室内验证，多楼层导航未涉及（跨层仅 2.2%）
平面图需语义标注（区域类型+ID），无标注场景需额外处理
真实世界 SR=24% 仍较低

评分¶

新颖性: ⭐⭐⭐⭐ 平面图引导 VLN 是新且实用的范式
实验充分度: ⭐⭐⭐⭐⭐ 6 基线 + 4 输入策略 + 3 噪声类型 + 辅助任务消融 + 真实机器人
价值: ⭐⭐⭐⭐ 对室内机器人导航有直接应用前景

核心贡献：范式转换（冗长指令→平面图+简洁指令）+ 10K FloorPlan-VLN 数据集 + 双视角时空对齐 MLLM 导航 + 真实四足机器人部署