UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories¶
会议: AAAI 2026
arXiv: 2512.09607
代码: https://github.com/CASIA-IVA-Lab/UrbanNav
领域: 机器人
关键词: 城市导航, 语言引导, 大规模网络视频, 模仿学习, 地标检测
一句话总结¶
提出 UrbanNav,利用网络规模的城市步行视频(YouTube 上 1500+ 小时、300 万条指令-轨迹-地标三元组),通过自动化标注管线和鲁棒过滤机制训练语言引导的城市导航策略,在真实世界部署中达到 83.3% 的导航成功率。
研究背景与动机¶
在真实城市环境中使用自然语言指令进行导航是自主智能体的基石能力,适用于最后一公里配送机器人、自动驾驶车辆和辅助机器人等场景。然而,城市场景充满挑战:动态地形、不可预测的障碍、密集行人以及模糊的人类指令(如"去老桥旁边的咖啡馆")。
现有方法的局限:
受限于精确目标格式:大多数方法依赖 GPS 坐标或目标图像作为导航目标,无法处理自由文本指令
仿真到现实差距:仿真器中训练的策略在真实世界中性能急剧下降
数据多样性不足:遥操作数据采集成本高,多样性有限,难以覆盖各种城市场景
缺乏对 noisy 指令的鲁棒性:真实用户给出的指令往往模糊或带有歧义
核心观察:YouTube 上有大量第一人称城市步行视频,记录了人类在多样城市环境中的真实导航行为。能否利用这些廉价、丰富的数据来训练导航策略?
两个关键问题: 1. 所有视频片段都适合训练机器人吗?(摄像头朝向不一致、危险行为等问题) 2. 如何从无标注的野外视频中获取指令-动作监督?
方法详解¶
整体框架¶
UrbanNav 包含两个主要部分:
- 自动化数据构建管线:从 YouTube 步行视频中提取轨迹、过滤不兼容数据、标注语言指令
- 策略模型:基于历史图像和语言指令预测未来轨迹
关键设计¶
1. 轨迹标注与机器人兼容性过滤¶
轨迹标注:将原始视频均匀分割为 2 分钟片段,使用 DPVO(视觉里程计模型)估计每帧相对于首帧的相机位姿。获得 106,603 条轨迹(3,553 小时)。
机器人兼容性过滤(这是本文的关键创新之一):
不是所有人类步行视频都适合训练机器人!人类走路时会转头、低头看手机、侧视,但机器人通常前置固定摄像头。过滤管线包括:
俯仰角过滤:估计每帧相机俯仰角,丢弃俯仰变化超过 15° 的轨迹
视角-运动方向对齐过滤:使用滑动窗口分析观看方向与移动方向的对齐度,丢弃方向偏差超过 60° 的片段(转头、侧视等)
人群密度过滤:使用 YOLOv10 检测行人,丢弃单帧超过 5 人且出现 3 帧以上的轨迹(避免训练机器人穿越密集人群的危险行为)
过滤后保留 47,008 条高质量轨迹(1,566 小时),约占原始数据的 44%。
2. 语言指令标注¶
使用 Qwen2.5-VL-72B 大视觉语言模型自动检测和标注地标:
地标选择标准: - 必须靠近行走轨迹(确保可达性) - 具有清晰可辨的视觉特征(建筑、雕塑、招牌、交通灯等) - 排除动态实体(行人和车辆)
最终获得 300 万个地标标注,每条轨迹平均 65 个地标,平均描述长度 17 个词。
3. 策略架构¶
输入四个组件: 1. 语言指令 \(g\)(由 CLIP 编码,冻结参数) 2. 当前视觉观测 \(o_t\)(由 DINOv2 提取特征,冻结参数) 3. 过去 \(k=8\) 步历史视觉观测 \(o_{(t-k):t}\)
FiLM 模块:用语言特征调制当前视觉嵌入,使智能体关注与导航目标相关的语义线索——是提升性能的关键组件(消融显示去掉 FiLM 导致显著性能下降)。
所有 token 拼接后送入 Transformer 编码器,输出预测未来 \(k=8\) 步的航路点。
损失函数 / 训练策略¶
四个互补的损失项:
- 航路点回归损失 \(L_{\text{reg}}\):预测位置与真实位置的 L2 距离
- 朝向损失 \(L_{\text{ori}}\):预测运动方向与真实方向的负余弦相似度
- 到达预测损失 \(L_{\text{arr}}\):二元交叉熵,判断是否已到达目标
- 特征幻觉损失 \(L_{\text{hall}}\):预测未来场景的高层视觉特征,鼓励模型内部建模场景动态
训练时随机选择一条轨迹和一个地标作为目标,在目标前 10-60 帧之间随机采样起始点。也模拟"已到达目标"的场景,帮助模型学会何时停下。
实验关键数据¶
主实验:离线评估¶
| 方法 | AOE↓ | MAOE↓ | ADE↓ | MADE↓ | 设置 |
|---|---|---|---|---|---|
| Nomad + CLIP | 22.77 | 39.12 | 3.65 | 6.96 | 未见环境 |
| ViNT + CLIP | 13.69 | 20.08 | 1.39 | 2.50 | 未见环境 |
| LeLaN | 10.36 | 16.49 | 0.98 | 1.84 | 未见环境 |
| UrbanNav (Ours) | 9.22 | 14.99 | 0.88 | 1.67 | 未见环境 |
UrbanNav 在所有指标上达到 SOTA,在已见和未见环境中均表现一致。
真实世界部署¶
| 方法 | 总体成功率 | 白天 | 夜间 |
|---|---|---|---|
| UrbanNav*(仅用真实数据训练) | 33.4% | 41.7% | 25.0% |
| Nomad + CLIP | 29.2% | 33.4% | 25.0% |
| ViNT + CLIP | 45.8% | 50.0% | 41.7% |
| LeLaN | 62.5% | 75.0% | 58.3% |
| UrbanNav (Ours) | 83.3% | 91.7% | 75.0% |
UrbanNav 在真实世界中 83.3% 的成功率远超第二名 LeLaN 的 62.5%。即使在夜间(相机噪声更大)仍保持 75.0%。
消融实验¶
鲁棒性分析(挑战场景):
| 场景类型 | UrbanNav* | Nomad+CLIP | ViNT+CLIP | LeLaN | UrbanNav |
|---|---|---|---|---|---|
| 正常 | 62.5% | 50.0% | 62.5% | 75.0% | 100.0% |
| 噪声指令 | 25.0% | 25.0% | 37.5% | 62.5% | 87.5% |
| 目标被遮挡 | 12.5% | 12.5% | 25.0% | 37.5% | 62.5% |
在噪声指令和目标被遮挡的困难场景下,UrbanNav 仍保持最高成功率。
模型组件消融(未见环境):
| Feature Hallucination | FiLM | AOE↓ | MAOE↓ | ADE↓ | MADE↓ |
|---|---|---|---|---|---|
| ✓ | ✗ | 11.35 | 17.54 | 1.07 | 1.94 |
| ✗ | ✓ | 9.56 | 15.51 | 0.92 | 1.71 |
| ✓ | ✓ | 9.22 | 14.99 | 0.88 | 1.67 |
FiLM 模块是性能提升的关键(去掉后 AOE 从 9.22 升至 11.35),Feature Hallucination Loss 提供额外增益。
数据规模效应: - 从 300 小时扩展到 1500 小时,所有误差指标持续下降 - 约 1200 小时后性能开始趋于平坦 - 证明了大规模网络数据的有效性和框架的可扩展性
关键发现¶
- 网络规模预训练极为重要:UrbanNav* 仅用真实机器人数据训练时成功率仅 33.4%,预训练后提升至 83.3%,翻了 2.5 倍
- FiLM 语言-视觉融合是核心组件:语言调制视觉特征让智能体能聚焦于与目标相关的语义线索
- 数据过滤不可或缺:未经过滤的视频包含大量视角不一致和危险行为,会降低策略性能
- Feature Hallucination 在高质量数据上是有益的——与之前工作中负面影响的发现不同,这是因为过滤后的数据更干净
亮点与洞察¶
- "免费午餐"式的数据利用——YouTube 步行视频是免费、丰富、多样的导航训练数据源,打破了数据采集的瓶颈
- 机器人兼容性过滤的重要性被首次强调——不是所有人类行为都适合机器人学习,前人工作忽略了视角偏差和危险行为的问题
- 300 万地标标注的规模效应——Large-scale 的指令-轨迹-地标三元组使策略泛化到不同城市和场景
- 从 YouTube 到真实机器人的闭环——不仅离线评估,还在真实物理机器人上部署验证,白天成功率 91.7%
- 鲁棒性设计:策略仅基于最近 8 帧做决策,避免了视觉里程计长期累积漂移的问题
局限与展望¶
- 短程局部导航:目标被遮挡时成功率降至 62.5%,说明不擅长需要长程探索的场景
- 夜间性能下降:从 91.7% 降至 75.0%(受限于 RGB 相机在低光照下的模糊)
- DPVO 视觉里程计的累积漂移:虽然短窗口缓解了问题,但长程轨迹仍可能受影响
- 仅支持步行视角:对于不同高度(如送货无人机)或形态的机器人可能需要重新适配
- 地标的稳定性:排除了行人和车辆,但某些"稳定"地标(如临时展板)也可能变化
相关工作与启发¶
- 与 LeLaN 的对比:LeLaN 聚焦室内近距离物体导航,UrbanNav 扩展到复杂城市环境,并增加了视角过滤和安全行为过滤
- 与 NoMaD/ViNT 的关系:原本设计用于图像目标导航,本文通过 CLIP 文本编码适配为语言导航
- 数据飞轮效应:一旦自动化标注管线建立,可以持续从 YouTube 获取新视频训练更强的模型
- 可启发方向:类似方法可扩展到无人机导航(利用航拍视频)、水下导航等新场景
评分¶
- 新颖性: ⭐⭐⭐⭐ — 利用网络视频训练导航的思路不是全新的(LeLaN 已有先例),但过滤管线和城市尺度是重要贡献
- 实验充分度: ⭐⭐⭐⭐⭐ — 离线评估+真实机器人部署+鲁棒性测试+消融+数据规模消融,非常全面
- 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰,问题定义精准,图表丰富
- 价值: ⭐⭐⭐⭐⭐ — 对最后一公里配送机器人等实际应用有重要价值,数据和代码已开源
相关论文¶
- [AAAI 2026] Realistic Synthetic Household Data Generation at Scale
- [ICLR 2026] Attribution-Guided Decoding
- [AAAI 2026] Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation
- [AAAI 2026] Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation
- [ICCV 2025] DexVLG: Dexterous Vision-Language-Grasp Model at Scale