ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving¶

会议: CVPR 2026 arXiv: 2512.22939 代码: 有领域: 自动驾驶 关键词: 端到端自动驾驶, VLM推理, 潜空间推理, 多尺度轨迹规划, 视觉-语言-动作

一句话总结¶

ColaVLA 提出统一的视觉-语言-动作(VLA)框架，将 VLM 的推理从文本链式思考迁移到潜空间，通过认知潜空间推理器(Cognitive Latent Reasoner)和层次化并行规划器(Hierarchical Parallel Planner)，仅需两次 VLM 前向传播即可高效完成场景理解与轨迹解码，在 nuScenes 开环和闭环评测上均达到 SOTA。

研究背景与动机¶

端到端自动驾驶方法正从模块化管线向统一学习演进。VLM 的引入带来了跨模态先验和常识推理能力，但当前 VLM-based 规划器面临三个核心问题：

模态不匹配：离散的文本 token 与连续的轨迹坐标之间存在天然鸿沟，可能产生格式违规或物理不一致的路径点
链式思考延迟高：自回归逐 token 解码导致序列不断增长，推理延迟高达 3700+ ms（如 OmniDrive、SOLVE-VLM）
非因果规划器限制部署：现有规划器无法在保持因果结构的同时实现并行解码

ColaVLA 的核心思想是将推理完全转移到统一的潜空间中执行，避免冗长的文本生成，同时保留 VLM 的知识先验和泛化能力。

方法详解¶

整体框架¶

ColaVLA 由两大核心模块组成：

认知潜空间推理器(Cognitive Latent Reasoner)：通过"理解→识别→重思→决策"四阶段在潜空间完成驾驶策略推断，仅需 2 次 VLM 前向传播
层次化并行规划器(Hierarchical Parallel Planner)：基于推理器输出的 meta-action 先验，在单次前向传播中解码多尺度、因果一致的轨迹

关键设计¶

1. 驾驶场景理解(Driving Scene Comprehension)¶

将固定驾驶提示文本嵌入 \(\mathbf{T}\)、多视角视觉嵌入 \(\mathbf{V}\) 和自车状态 token \(\mathbf{E}\) 拼接，通过共享 VLM Transformer 获得全局交互后的视觉 token：

\[\mathbf{Q}_V = \mathcal{D}_{\text{vlm}}([\mathbf{T}; \mathbf{V}; \mathbf{E}]) \in \mathbb{R}^{L_v \times D}\]

仅保留视觉切片，丢弃文本和 ego 嵌入，确保 prompt 不可变且不引入冗余信息。

2. 关键实体识别(Critical Entity Recognition)¶

引入 ego-adaptive router，通过 FiLM 条件化将视觉 token 与自车状态对齐：

\[\tilde{\mathbf{Q}}_V = (1 + \gamma(\mathbf{E})) \odot \mathbf{Q}_V + \beta(\mathbf{E})\]

然后通过路由器打分选取 Top-K 个安全关键视觉 token \(\mathbf{Q}^*\)。训练时用 Gumbel-Softmax 松弛保持可微，推理时直接取 Top-K。此步骤将 1200 个视觉 token 压缩到 K=256 个，形成高效信息瓶颈。

3. 潜空间重思(Latent Rethinking)¶

将固定提示 \(\mathbf{T}\)、筛选后的 K 个视觉 token \(\mathbf{Q}^*\)、ego token \(\mathbf{E}\) 和 C 个可学习 meta-query \(\mathbf{M}\) 拼接，进行第二次 VLM 前向传播：

\[\mathbf{Q}_M = \mathcal{D}_{\text{vlm}}([\mathbf{T}; \mathbf{Q}^*; \mathbf{E}; \mathbf{M}]) \in \mathbb{R}^{C \times D}\]

每个 meta-query 初始化为一种驾驶元动作（如直行巡航、无保护左转、紧急制动），通过聚类训练轨迹获得。

4. 策略决策综合(Strategic Decision Synthesis)¶

meta-query 嵌入经 FiLM 调制和交叉注意力后，MLP 映射到驾驶策略 logit，使用 focal loss 训练，重点关注困难和安全关键样本。

5. 层次化并行规划器¶

将预测时域 T 步划分为 S 个嵌套尺度 \(\mathcal{I}_1 \subset \cdots \subset \mathcal{I}_S = \mathcal{T}\)，从粗到细逐级细化轨迹：

阶段感知轨迹查询：将推理器选出的 meta-action embedding 通过时间嵌入扩展为多尺度目标
因果保持混合注意力：设计 hybrid attention mask \(\mathcal{M}\)，确保尺度 s 的 token 只能访问尺度 s-1 和上下文 token，防止未来信息泄露
置信度引导并行解码：多候选策略同时处理，两个 MLP head 分别估计置信度和回归轨迹，仅最近 GT 的假设接受监督，防止模式坍缩

损失函数 / 训练策略¶

多阶段训练：第一阶段在 OmniDrive-nuScenes QA 对上预训练 VLM（仅更新 LoRA 参数）；第二阶段集成动作规划器联合微调
基于 LLaVA v1.5（LLaMA-7B），图像编码器用 EVA-02-L，视觉推理用 SQ-Former
AdamW 优化器 + Cosine Annealing，学习率 \(1 \times 10^{-4}\)

实验关键数据¶

主实验¶

表1：nuScenes 开环规划结果

方法	类型	Avg L2 (m) ↓	Avg Col. (%) ↓
UniAD	Action+Ego	0.46	0.37
VAD-Base	Action+Ego	0.37	0.33
SOLVE-E2E	Action+Ego	0.31	0.30
SOLVE-VLM	Text	0.28	0.20
ColaVLA	Action+Ego	0.30	0.23

表2：NeuroNCAP 闭环仿真结果

方法	NeuroNCAP Score ↑	Avg Col. (%) ↓
UniAD	0.73	88.6
VAD	0.66	92.5
ImpromptuVLA†	2.06	65.1
BridgeAD-B‡	3.06	44.3
ColaVLA	3.48	36.8

消融实验¶

推理模块	重思阶段	Avg L2 (cm) ↓
✗	✗	32.2
✓	✗	31.3
✓	✓	30.4

规划器类型	NeuroNCAP Score ↑
MLP-based	1.05
Diffusion-based	1.02
Ours	1.50

推理延迟比较：ColaVLA 727ms vs OmniDrive 3727ms vs SOLVE-VLM 3719ms（单 H20 GPU），实现 5× 加速。

关键发现¶

潜空间推理相比文本链式思考延迟降低 5 倍以上，但保持甚至提升规划质量
闭环评测中碰撞率从 65.1%（ImpromptuVLA）降至 36.8%，静态碰撞减少 73%
层次化插值策略（先预测端点再填充中间点）优于顺序/逆序/单尺度策略
Top-K=256 安全关键 token 达到最佳精度-效率平衡

亮点与洞察¶

范式创新：首次系统提出将 VLM 推理从文本空间迁移到统一潜空间的完整框架，避免了模态不匹配和自回归延迟
认知启发式设计：四阶段推理过程（理解→识别→重思→决策）模拟人类驾驶认知，每阶段都有清晰的信息处理目标
因果一致的并行解码：通过精心设计的 hybrid attention mask 在单次前向传播中同时解码多尺度轨迹，兼顾效率和因果性
闭环 SOTA：在安全关键的 NeuroNCAP 评测上大幅超越先前方法，验证了潜空间推理在实际部署场景的有效性

局限性 / 可改进方向¶

仅在 nuScenes 单一数据集验证，未在更大规模或跨域数据上测试泛化性
Meta-action 类别通过聚类硬编码，可能无法覆盖所有长尾驾驶场景
仍需依赖 LiDAR 和预训练感知模块，纯视觉设置下的效果未验证
闭环评测仅用 NeuroNCAP 单一模拟器，缺乏真实道路验证

评分¶

维度	分数 (1-5)
创新性	5
技术深度	5
实验充分度	4
写作质量	4
实用价值	4
总评	4.5