Latent Chain-of-Thought World Modeling for End-to-End Autonomous Driving¶
会议: CVPR 2026
arXiv: 2512.10226
代码: 无
领域: 自动驾驶
关键词: 潜空间推理, 链式思考, 世界模型, 端到端驾驶, VLA模型
一句话总结¶
LCDrive 提出潜在链式思考(Latent CoT)框架,用动作提议token和世界模型预测token替代自然语言CoT进行推理,通过冷启动+RL后训练实现更低延迟、更好轨迹质量的端到端自动驾驶。
研究背景与动机¶
- 领域现状:视觉-语言-动作(VLA)模型已成为端到端自动驾驶的趋势,文本CoT推理被引入来提升长尾场景性能。
- 现有痛点:(i)自然语言不适合表示时空几何和多Agent交互;(ii)自回归生成长文本引入显著延迟;(iii)生成的动作可能与文本推理严重偏离(文本说"左转"但动作实际右转)。
- 核心矛盾:文本CoT虽然利用了LLM的推理能力,但文本不是驾驶决策的最佳表示介质。
- 本文目标:设计更高效、更对齐的推理表示,替代文本CoT。
- 切入角度:将推理表达为潜在向量空间中的结构化序列,而非自然语言。
- 核心idea:用动作提议token(与输出动作共享词汇表)和世界模型token(预测未来场景状态)交替构成潜在CoT。
方法详解¶
整体框架¶
三阶段训练:(1)从预训练的非推理VLA出发,冷启动潜在CoT(teacher-forcing GT世界模型状态+模型自身的动作提议);(2)训练小型LWM预测头从提议动作预测世界模型embedding;(3)RL后训练用轨迹级奖励优化潜在推理过程和最终动作预测。
关键设计¶
-
潜在CoT表示:
- 功能:提供比文本更高效、更对齐的推理痕迹
- 核心思路:推理序列交替包含两种token——(i)动作提议token:使用与模型输出动作相同的1024码运动基元词汇(k-means聚类训练数据得到),表示候选动作;(ii)世界模型token:来自学习的潜在世界模型,表示执行候选动作后的未来场景状态。这构成了一个"提议动作→预测后果→调整动作→预测后果"的结构化推理链。
- 设计动机:动作提议token与输出动作天然对齐(共享词汇),消除了文本CoT中动作-推理不对齐的问题。世界模型token直接编码物理交互,比文字描述更精确。
-
冷启动+LWM预测头训练:
- 功能:初始化潜在推理能力并使模型能在推理时自主预测世界状态
- 核心思路:冷启动阶段对GT未来rollout状态和模型自身动作提议做teacher-forcing,建立初始推理模式。同时训练一个小型LWM预测头,学会从提议动作预测对应的世界模型embedding,使推理时无需GT状态。
- 设计动机:直接从随机初始化学习潜在推理非常困难,需要先建立有意义的推理scaffold。
-
RL后训练:
- 功能:用轨迹级奖励优化整个推理过程
- 核心思路:在冷启动建立的推理scaffold上,使用强化学习根据轨迹级奖励(如碰撞、舒适度、遵守交规等)优化潜在推理token和最终动作预测。RL对潜在推理模型的提升比对非推理baseline更大。
- 设计动机:teacher-forcing仅能模仿GT行为,RL允许模型探索和发现更优的推理-决策策略。
损失函数 / 训练策略¶
冷启动:动作预测损失 + 世界模型预测损失。RL后训练:GRPO或类似的策略梯度方法,使用轨迹级综合奖励。
实验关键数据¶
主实验¶
| 方法 | 推理延迟 | 轨迹质量 | RL提升幅度 | 说明 |
|---|---|---|---|---|
| LCDrive (Latent CoT) | 最低 | 最优 | 最大 | 潜在推理 |
| Text CoT VLA | 高 | 次优 | 中等 | 自然语言推理 |
| Non-reasoning VLA | 低 | baseline | 较小 | 无推理 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full LCDrive | 最优 | 冷启动+LWM+RL |
| w/o RL后训练 | 明显下降 | RL对潜在推理提升最大 |
| w/o 世界模型token | 下降 | 仅动作提议不够 |
| w/o 冷启动 | 严重下降 | 直接RL无法建立推理 |
关键发现¶
- LCDrive比文本CoT推理延迟更低,因为潜在token序列更紧凑(无冗余自然语言token)。
- RL后训练对潜在推理模型的提升远大于对非推理模型,说明潜在CoT提供了更好的优化landscape。
- 定性分析显示,潜在CoT推理在多Agent交互场景中能做出更连贯的决策。
亮点与洞察¶
- "推理不一定需要语言"这一洞察非常深刻——驾驶决策的本质是空间推理而非语言推理。
- 动作-推理对齐通过共享词汇表自然实现,消除了文本CoT的核心弱点。
- RL+潜在推理的协同效应是重要发现——潜在空间比语言空间更适合RL优化。
局限与展望¶
- 冷启动依赖GT未来状态,需要完整的场景标注。
- LWM预测头的精度影响推理质量。
- 目前基于单一数据集评估,泛化性需进一步验证。
相关工作与启发¶
- vs AR1/DriveVLM: 使用文本CoT推理,延迟高且动作-文本可能不对齐。
- vs MILE/LAW: 使用潜在世界模型但不用于推理链条。LCDrive将两者结合为结构化推理。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 潜在CoT替代文本CoT是概念性突破
- 实验充分度: ⭐⭐⭐⭐ 大规模驾驶数据集上的全面评估
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义精准,对比分析透彻
- 价值: ⭐⭐⭐⭐⭐ 对VLA推理范式有重要启示意义
相关论文¶
- [NeurIPS 2025] Latent Chain-of-Thought for Visual Reasoning
- [ACL 2026] Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
- [ICLR 2026] Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure
- [AAAI 2026] L2V-CoT: Cross-Modal Transfer of Chain-of-Thought Reasoning via Latent Intervention
- [NeurIPS 2025] Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals