FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving¶

基本信息¶

arXiv: 2505.17685
会议: NeurIPS 2025 Spotlight
作者: Shuang Zeng, Xinyuan Chang, Mengwei Xie, Xinran Liu, Yifan Bai, Zheng Pan, Mu Xu, Xing Wei, Ning Guo 等
代码: https://github.com/MIV-XJTU/FSDrive
领域: Autonomous Driving / Vision-Language-Action / World Model

一句话总结¶

FutureSightDrive 认为自动驾驶 VLA 的文本 CoT 会把关键视觉时空信息压缩丢失，提出“视觉时空 CoT”范式：先让模型以 world model 方式生成融合未来背景、车道线和 3D 目标框的统一未来帧，再将该 imagined scene 作为推理中介供 inverse-dynamics 规划器生成轨迹，从而显著提升轨迹精度、降低碰撞并改善场景理解。

背景与动机¶

现有 VLA 在驾驶任务上常借助文本 CoT 做推理，但文本链条有天然缺陷： - 难保留精确的空间关系； - 会压缩时间演化细节； - 感知与规划之间存在 modality gap。

作者提出一个更贴合驾驶本质的观点：驾驶决策需要“视觉化思考”，不是先把世界翻译成文本再规划。

核心问题¶

如何为驾驶 VLA 设计一种既保留空间结构又编码时间演化的中间推理表示，使 perception 与 planning 更自然衔接？

方法详解¶

1. Visual Spatio-Temporal CoT¶

FSDrive 的核心是生成一个 imagined future frame： - 包含预测背景； - 显式融入未来车道分隔线； - 纳入 3D 物体框等物理可行先验。

这张未来场景图像既表达空间结构，也压缩时间趋势，是一种视觉时空 CoT。

2. 一模两用：World Model + Inverse Dynamics¶

同一个 VLA 承担两种角色： - World model：预测未来场景； - Inverse-dynamics model：基于当前观测 + visual CoT 生成轨迹。

这形成了从“看见未来”到“据此行动”的闭环。

3. 统一预训练与视觉 token 扩展¶

为了支持这一流程，作者： - 扩展模型词表以容纳视觉 token； - 联合优化语义理解（VQA）与未来帧预测； - 采用 progressive curriculum，先学习结构性物理先验，再渲染完整场景。

实验结论¶

摘要报告： - 在 nuScenes 和 NAVSIM 上提高轨迹准确率并降低碰撞； - 在视频生成上取得有竞争力的 FID； - 在 DriveLM 场景理解上也有提升。

说明 visual spatio-temporal CoT 不只是规划中介，也提升了理解能力。

亮点¶

范式创新：把 CoT 从文本迁移到视觉未来场景。
感知-规划闭环清晰：world model 与 planning 明确串联。
物理先验融入自然：未来车道和 3D 框让 imagined scene 更可控。
对具身/驾驶 agent 价值高：非常贴近真实决策需求。

局限性¶

中间未来帧生成质量若不足，可能把误差传递给规划模块。
单帧视觉 CoT 是否足以覆盖更长时间尺度决策仍需验证。
训练和推理系统较复杂，对部署资源有要求。

与相关工作的对比¶

相比文本 CoT 驱动的驾驶 VLA：FSDrive 保留更多视觉时空结构。
相比纯 world model：FSDrive 把生成的未来直接作为 reasoning token 用于规划。
相比传统 modular autonomous driving：FSDrive 更接近端到端但保留可解释中间表示。

启发¶

视觉 CoT 可能是具身 agent 中比文本 CoT 更自然的推理载体。
可拓展到机器人操作、视频导航、AR assistant 等需要 anticipatory reasoning 的任务。
与 EgoThinker 这类时空 CoT 思路在第一人称推理和行动规划上形成互补。

评分¶

新颖性：★★★★★
技术深度：★★★★☆
应用潜力：★★★★★
研究启发性：★★★★★