跳转至

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

基本信息

  • arXiv: 2505.17685
  • 会议: NeurIPS 2025 Spotlight
  • 作者: Shuang Zeng, Xinyuan Chang, Mengwei Xie, Xinran Liu, Yifan Bai, Zheng Pan, Mu Xu, Xing Wei, Ning Guo 等
  • 代码: https://github.com/MIV-XJTU/FSDrive
  • 领域: Autonomous Driving / Vision-Language-Action / World Model

一句话总结

FutureSightDrive 认为自动驾驶 VLA 的文本 CoT 会把关键视觉时空信息压缩丢失,提出“视觉时空 CoT”范式:先让模型以 world model 方式生成融合未来背景、车道线和 3D 目标框的统一未来帧,再将该 imagined scene 作为推理中介供 inverse-dynamics 规划器生成轨迹,从而显著提升轨迹精度、降低碰撞并改善场景理解。

背景与动机

现有 VLA 在驾驶任务上常借助文本 CoT 做推理,但文本链条有天然缺陷: - 难保留精确的空间关系; - 会压缩时间演化细节; - 感知与规划之间存在 modality gap。

作者提出一个更贴合驾驶本质的观点:驾驶决策需要“视觉化思考”,不是先把世界翻译成文本再规划。

核心问题

如何为驾驶 VLA 设计一种既保留空间结构又编码时间演化的中间推理表示,使 perception 与 planning 更自然衔接?

方法详解

1. Visual Spatio-Temporal CoT

FSDrive 的核心是生成一个 imagined future frame: - 包含预测背景; - 显式融入未来车道分隔线; - 纳入 3D 物体框等物理可行先验。

这张未来场景图像既表达空间结构,也压缩时间趋势,是一种视觉时空 CoT。

2. 一模两用:World Model + Inverse Dynamics

同一个 VLA 承担两种角色: - World model:预测未来场景; - Inverse-dynamics model:基于当前观测 + visual CoT 生成轨迹。

这形成了从“看见未来”到“据此行动”的闭环。

3. 统一预训练与视觉 token 扩展

为了支持这一流程,作者: - 扩展模型词表以容纳视觉 token; - 联合优化语义理解(VQA)与未来帧预测; - 采用 progressive curriculum,先学习结构性物理先验,再渲染完整场景。

实验结论

摘要报告: - 在 nuScenes 和 NAVSIM 上提高轨迹准确率并降低碰撞; - 在视频生成上取得有竞争力的 FID; - 在 DriveLM 场景理解上也有提升。

说明 visual spatio-temporal CoT 不只是规划中介,也提升了理解能力。

亮点

  1. 范式创新:把 CoT 从文本迁移到视觉未来场景。
  2. 感知-规划闭环清晰:world model 与 planning 明确串联。
  3. 物理先验融入自然:未来车道和 3D 框让 imagined scene 更可控。
  4. 对具身/驾驶 agent 价值高:非常贴近真实决策需求。

局限性

  1. 中间未来帧生成质量若不足,可能把误差传递给规划模块。
  2. 单帧视觉 CoT 是否足以覆盖更长时间尺度决策仍需验证。
  3. 训练和推理系统较复杂,对部署资源有要求。

与相关工作的对比

  • 相比文本 CoT 驱动的驾驶 VLA:FSDrive 保留更多视觉时空结构。
  • 相比纯 world model:FSDrive 把生成的未来直接作为 reasoning token 用于规划。
  • 相比传统 modular autonomous driving:FSDrive 更接近端到端但保留可解释中间表示。

启发

  • 视觉 CoT 可能是具身 agent 中比文本 CoT 更自然的推理载体。
  • 可拓展到机器人操作、视频导航、AR assistant 等需要 anticipatory reasoning 的任务。
  • 与 EgoThinker 这类时空 CoT 思路在第一人称推理和行动规划上形成互补。

评分

  • 新颖性:★★★★★
  • 技术深度:★★★★☆
  • 应用潜力:★★★★★
  • 研究启发性:★★★★★