DreamToNav: Generalizable Navigation for Robots via Generative Video Planning¶
日期: 2026-03-06
arXiv: 2603.06190
代码: 无
领域: 视频理解 / 机器人导航
关键词: video generation, robot navigation, generative planning, Cosmos 2.5, trajectory extraction
一句话总结¶
提出 DreamToNav,利用生成式视频模型(NVIDIA Cosmos 2.5)作为规划引擎,机器人先"想象"执行过程的视频,再从生成视频中提取可执行轨迹,实现自然语言驱动的无需任务特定工程的导航。
研究背景与动机¶
- 领域现状: 自主导航传统上分解为建图、定位和轨迹优化,但难以处理自然语言指令中蕴含的复杂语义(如"礼貌地跟随那个人"涉及社交距离和时机)。
- 现有痛点:
- 经典方法依赖手工代价函数,无法编码自然语言的丰富语义
- 扩散模型导航方法(NoMaD、NaviDiffuser)在学习潜空间中操作,可解释性差
- 已有 VLA 方法多针对驾驶等结构化环境,非结构化室内场景适用性不足
- 核心矛盾: 如何从用户的高层自然语言指令直接生成物理可执行的导航轨迹,而不需要显式轨迹定义或任务特定训练。
- 切入角度: "视频即规划"——如果生成模型能产生机器人执行任务的逼真视频,那它本质上已经解决了规划问题。
- 核心idea一句话: 用 VLM 增强自然语言指令 → 用 Cosmos 2.5 生成机器人执行视频 → 从视频中提取轨迹并在真实机器人上执行。
方法详解¶
整体框架¶
三阶段 pipeline:Prompt 精炼 → 视频生成 → 轨迹提取与执行。
关键设计¶
-
Prompt 精炼(Qwen 2.5-VL):
- 输入当前相机帧 \(I_0\) 和原始指令 \(p_{raw}\)
- 三阶段推理:场景接地(识别物体和空间关系)→ 指代消解(锚定模糊代词)→ 运动分解(方向、速度、社交约束的可视化描述)
- 输出结构化、度量化描述,如"相机以 1 m/s 前进,左转 30° 避开椅子"
- 设计动机:弥合用户模糊意图与视频模型所需精确视觉描述之间的语义鸿沟
-
视频生成(NVIDIA Cosmos 2.5):
- 基于条件潜空间去噪:\(\mathbf{z}_{t-1} = f_\theta(\mathbf{z}_t, t, \phi(\hat{p}), \psi(I_0))\)
- 双重条件:文本嵌入 \(\phi(\hat{p})\) 编码运动意图 + 视觉嵌入 \(\psi(I_0)\) 编码场景几何
- 额外生成第三人称视角(TPV)提供全局空间信息,减少定位歧义
-
轨迹提取与执行:
- ORB-SLAM3 估计虚拟相机位姿 \(\mathbf{T}_{wc,k} \in SE(3)\)
- YOLO11n 检测每帧中的机器人边界框 \(\mathbf{b}_k = (u_k, v_k, w_k, h_k)\)
- IPPE-based PnP 算法估计机器人在相机坐标系中的位置
- 扩展卡尔曼滤波 (EKF) 平滑位置序列,减少噪声
- 最终变换到世界坐标系:\(\tilde{\mathbf{p}}_{r,k}^w = \hat{\mathbf{R}}_{wc,k}\tilde{\mathbf{p}}_{r,k}^c + \hat{\mathbf{t}}_{wc,k}\)
损失函数 / 训练策略¶
- 无需端到端训练,仅 YOLO11n 需要在小型机器人检测数据集上训练
- 数据集包含真实实验图像 + 扩散模型生成的增强图像
- 管线各模块(VLM、视频模型、SLAM、检测器)独立预训练,无联合优化
实验关键数据¶
主实验¶
| 任务 | 路径长度 (m) | 终点误差 (m) | 轨迹跟踪误差 (m) | 成功率 |
|---|---|---|---|---|
| UGV → 红色目标 | 2.8 | 0.05–0.10 | 0.05–0.10 | 7/10 |
| UGV → 蓝色目标 | 2.9 | 0.05–0.10 | 0.05–0.10 | 8/10 |
| 四足机器人避障 | 2.3 | 0.05–0.10 | 0.03–0.08 | 8/10 |
| 总计 | 2.3–2.9 | <0.10 | <0.15 | 23/30 (76.7%) |
使用 VICON 动捕系统记录真实轨迹作为 ground truth
消融实验¶
论文未提供系统消融,但分析了不同任务的表现差异: - 四足机器人虽有额外运动变异性,但跟踪误差更低(0.03–0.08 m) - 轮式机器人两个目标任务表现相当
关键发现¶
- 生成视频中的轨迹可以可靠地在真实机器人上执行,验证了"视频即规划"范式
- 同一管线无需修改即可适配轮式和四足两种机器人形态
- 生成的轨迹呈现平滑、避障感知的运动,说明视频模型隐式捕捉了场景几何
- 失败案例主要来自视频生成对场景布局的轻微误表示或位姿估计累积误差
亮点与洞察¶
- "视频即规划"范式的实体验证: 从概念到真实机器人执行的完整闭环,展示了生成模型作为规划引擎的可行性
- 透明可检视的规划: 与潜空间方法不同,生成的视频本身就是人可理解的规划解释,人类操作员可在执行前审查
- 跨形态泛化: 轮式 + 四足机器人使用完全相同的管线,体现通用性
- 极简人机交互: 用户仅需提供一张场景图像 + 一句自然语言,无需轨迹或航点定义
局限性 / 可改进方向¶
- 成功率 76.7% 对安全关键应用偏低,需提高鲁棒性
- 实验规模小(仅 30 次试验),统计可靠性有限
- 仅在室内简单场景评估,未测试复杂户外/动态环境
- 视频生成质量直接决定轨迹可靠性,Cosmos 的幻觉问题可能导致失败
- 位姿估计依赖已知机器人物理尺寸,限制通用性
- 未与经典导航方法(如 ROS Navigation Stack)直接对比
- 推理延迟未报告(视频生成 + 轨迹提取的总时间)
相关工作与启发¶
- UniPi (Du et al., 2023): 文本条件视频扩散作为通用策略,本文将其扩展到社交导航
- GAIA-1: 驾驶领域的生成世界模型,但针对结构化道路
- Alpamayo-R1 (NVIDIA): VLA + Chain-of-Causation 推理用于自动驾驶
- FlightDiffusion: 扩散视频生成作为 UAV 规划引擎,本文思路最接近的先驱工作
- NoMaD: 目标遮蔽扩散策略,但在潜空间操作缺乏可解释性
评分¶
- ⭐⭐⭐⭐ 新颖性:视频生成→轨迹提取→真实执行的完整闭环pipeline新颖且有启发性
- ⭐⭐⭐ 有效性:76.7% 成功率证明可行性,但实验规模小、场景简单
- ⭐⭐⭐ 完整性:缺少系统消融和与经典导航方法的对比
- ⭐⭐⭐ 写作:思路清晰,但数学符号和细节描述较冗长
- ⭐⭐⭐⭐ 启发性:视频生成作为通用规划引擎的思路对机器人领域有重要启发意义