Latent Chain-of-Thought World Modeling for End-to-End Autonomous Driving¶

会议: CVPR 2026
arXiv: 2512.10226
代码: 无
领域: 自动驾驶
关键词: 潜空间推理, 链式思考, 世界模型, 端到端驾驶, VLA模型

一句话总结¶

LCDrive 提出潜在链式思考（Latent CoT）框架，用动作提议token和世界模型预测token替代自然语言CoT进行推理，通过冷启动+RL后训练实现更低延迟、更好轨迹质量的端到端自动驾驶。

研究背景与动机¶

领域现状：视觉-语言-动作（VLA）模型已成为端到端自动驾驶的趋势，文本CoT推理被引入来提升长尾场景性能。
现有痛点：（i）自然语言不适合表示时空几何和多Agent交互；（ii）自回归生成长文本引入显著延迟；（iii）生成的动作可能与文本推理严重偏离（文本说"左转"但动作实际右转）。
核心矛盾：文本CoT虽然利用了LLM的推理能力，但文本不是驾驶决策的最佳表示介质。
本文目标：设计更高效、更对齐的推理表示，替代文本CoT。
切入角度：将推理表达为潜在向量空间中的结构化序列，而非自然语言。
核心idea：用动作提议token（与输出动作共享词汇表）和世界模型token（预测未来场景状态）交替构成潜在CoT。

方法详解¶

整体框架¶

三阶段训练：（1）从预训练的非推理VLA出发，冷启动潜在CoT（teacher-forcing GT世界模型状态+模型自身的动作提议）；（2）训练小型LWM预测头从提议动作预测世界模型embedding；（3）RL后训练用轨迹级奖励优化潜在推理过程和最终动作预测。

关键设计¶

潜在CoT表示:
- 功能：提供比文本更高效、更对齐的推理痕迹
- 核心思路：推理序列交替包含两种token——（i）动作提议token：使用与模型输出动作相同的1024码运动基元词汇（k-means聚类训练数据得到），表示候选动作；（ii）世界模型token：来自学习的潜在世界模型，表示执行候选动作后的未来场景状态。这构成了一个"提议动作→预测后果→调整动作→预测后果"的结构化推理链。
- 设计动机：动作提议token与输出动作天然对齐（共享词汇），消除了文本CoT中动作-推理不对齐的问题。世界模型token直接编码物理交互，比文字描述更精确。
冷启动+LWM预测头训练:
- 功能：初始化潜在推理能力并使模型能在推理时自主预测世界状态
- 核心思路：冷启动阶段对GT未来rollout状态和模型自身动作提议做teacher-forcing，建立初始推理模式。同时训练一个小型LWM预测头，学会从提议动作预测对应的世界模型embedding，使推理时无需GT状态。
- 设计动机：直接从随机初始化学习潜在推理非常困难，需要先建立有意义的推理scaffold。
RL后训练:
- 功能：用轨迹级奖励优化整个推理过程
- 核心思路：在冷启动建立的推理scaffold上，使用强化学习根据轨迹级奖励（如碰撞、舒适度、遵守交规等）优化潜在推理token和最终动作预测。RL对潜在推理模型的提升比对非推理baseline更大。
- 设计动机：teacher-forcing仅能模仿GT行为，RL允许模型探索和发现更优的推理-决策策略。

损失函数 / 训练策略¶

冷启动：动作预测损失 + 世界模型预测损失。RL后训练：GRPO或类似的策略梯度方法，使用轨迹级综合奖励。

实验关键数据¶

主实验¶

方法	推理延迟	轨迹质量	RL提升幅度	说明
LCDrive (Latent CoT)	最低	最优	最大	潜在推理
Text CoT VLA	高	次优	中等	自然语言推理
Non-reasoning VLA	低	baseline	较小	无推理

消融实验¶

配置	关键指标	说明
Full LCDrive	最优	冷启动+LWM+RL
w/o RL后训练	明显下降	RL对潜在推理提升最大
w/o 世界模型token	下降	仅动作提议不够
w/o 冷启动	严重下降	直接RL无法建立推理

关键发现¶

LCDrive比文本CoT推理延迟更低，因为潜在token序列更紧凑（无冗余自然语言token）。
RL后训练对潜在推理模型的提升远大于对非推理模型，说明潜在CoT提供了更好的优化landscape。
定性分析显示，潜在CoT推理在多Agent交互场景中能做出更连贯的决策。

亮点与洞察¶

"推理不一定需要语言"这一洞察非常深刻——驾驶决策的本质是空间推理而非语言推理。
动作-推理对齐通过共享词汇表自然实现，消除了文本CoT的核心弱点。
RL+潜在推理的协同效应是重要发现——潜在空间比语言空间更适合RL优化。

局限与展望¶

冷启动依赖GT未来状态，需要完整的场景标注。
LWM预测头的精度影响推理质量。
目前基于单一数据集评估，泛化性需进一步验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 潜在CoT替代文本CoT是概念性突破
实验充分度: ⭐⭐⭐⭐ 大规模驾驶数据集上的全面评估
写作质量: ⭐⭐⭐⭐⭐ 问题定义精准，对比分析透彻
价值: ⭐⭐⭐⭐⭐ 对VLA推理范式有重要启示意义