ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving¶
会议: CVPR 2026 arXiv: 2512.22939 代码: 有 领域: 自动驾驶 关键词: 端到端自动驾驶, VLM推理, 潜空间推理, 多尺度轨迹规划, 视觉-语言-动作
一句话总结¶
ColaVLA 提出统一的视觉-语言-动作(VLA)框架,将 VLM 的推理从文本链式思考迁移到潜空间,通过认知潜空间推理器(Cognitive Latent Reasoner)和层次化并行规划器(Hierarchical Parallel Planner),仅需两次 VLM 前向传播即可高效完成场景理解与轨迹解码,在 nuScenes 开环和闭环评测上均达到 SOTA。
研究背景与动机¶
端到端自动驾驶方法正从模块化管线向统一学习演进。VLM 的引入带来了跨模态先验和常识推理能力,但当前 VLM-based 规划器面临三个核心问题:
- 模态不匹配:离散的文本 token 与连续的轨迹坐标之间存在天然鸿沟,可能产生格式违规或物理不一致的路径点
- 链式思考延迟高:自回归逐 token 解码导致序列不断增长,推理延迟高达 3700+ ms(如 OmniDrive、SOLVE-VLM)
- 非因果规划器限制部署:现有规划器无法在保持因果结构的同时实现并行解码
ColaVLA 的核心思想是将推理完全转移到统一的潜空间中执行,避免冗长的文本生成,同时保留 VLM 的知识先验和泛化能力。
方法详解¶
整体框架¶
ColaVLA 由两大核心模块组成:
- 认知潜空间推理器(Cognitive Latent Reasoner):通过"理解→识别→重思→决策"四阶段在潜空间完成驾驶策略推断,仅需 2 次 VLM 前向传播
- 层次化并行规划器(Hierarchical Parallel Planner):基于推理器输出的 meta-action 先验,在单次前向传播中解码多尺度、因果一致的轨迹
关键设计¶
1. 驾驶场景理解(Driving Scene Comprehension)¶
将固定驾驶提示文本嵌入 \(\mathbf{T}\)、多视角视觉嵌入 \(\mathbf{V}\) 和自车状态 token \(\mathbf{E}\) 拼接,通过共享 VLM Transformer 获得全局交互后的视觉 token:
仅保留视觉切片,丢弃文本和 ego 嵌入,确保 prompt 不可变且不引入冗余信息。
2. 关键实体识别(Critical Entity Recognition)¶
引入 ego-adaptive router,通过 FiLM 条件化将视觉 token 与自车状态对齐:
然后通过路由器打分选取 Top-K 个安全关键视觉 token \(\mathbf{Q}^*\)。训练时用 Gumbel-Softmax 松弛保持可微,推理时直接取 Top-K。此步骤将 1200 个视觉 token 压缩到 K=256 个,形成高效信息瓶颈。
3. 潜空间重思(Latent Rethinking)¶
将固定提示 \(\mathbf{T}\)、筛选后的 K 个视觉 token \(\mathbf{Q}^*\)、ego token \(\mathbf{E}\) 和 C 个可学习 meta-query \(\mathbf{M}\) 拼接,进行第二次 VLM 前向传播:
每个 meta-query 初始化为一种驾驶元动作(如直行巡航、无保护左转、紧急制动),通过聚类训练轨迹获得。
4. 策略决策综合(Strategic Decision Synthesis)¶
meta-query 嵌入经 FiLM 调制和交叉注意力后,MLP 映射到驾驶策略 logit,使用 focal loss 训练,重点关注困难和安全关键样本。
5. 层次化并行规划器¶
将预测时域 T 步划分为 S 个嵌套尺度 \(\mathcal{I}_1 \subset \cdots \subset \mathcal{I}_S = \mathcal{T}\),从粗到细逐级细化轨迹:
- 阶段感知轨迹查询:将推理器选出的 meta-action embedding 通过时间嵌入扩展为多尺度目标
- 因果保持混合注意力:设计 hybrid attention mask \(\mathcal{M}\),确保尺度 s 的 token 只能访问尺度 s-1 和上下文 token,防止未来信息泄露
- 置信度引导并行解码:多候选策略同时处理,两个 MLP head 分别估计置信度和回归轨迹,仅最近 GT 的假设接受监督,防止模式坍缩
损失函数 / 训练策略¶
- 多阶段训练:第一阶段在 OmniDrive-nuScenes QA 对上预训练 VLM(仅更新 LoRA 参数);第二阶段集成动作规划器联合微调
- 基于 LLaVA v1.5(LLaMA-7B),图像编码器用 EVA-02-L,视觉推理用 SQ-Former
- AdamW 优化器 + Cosine Annealing,学习率 \(1 \times 10^{-4}\)
实验关键数据¶
主实验¶
表1:nuScenes 开环规划结果
| 方法 | 类型 | Avg L2 (m) ↓ | Avg Col. (%) ↓ |
|---|---|---|---|
| UniAD | Action+Ego | 0.46 | 0.37 |
| VAD-Base | Action+Ego | 0.37 | 0.33 |
| SOLVE-E2E | Action+Ego | 0.31 | 0.30 |
| SOLVE-VLM | Text | 0.28 | 0.20 |
| ColaVLA | Action+Ego | 0.30 | 0.23 |
表2:NeuroNCAP 闭环仿真结果
| 方法 | NeuroNCAP Score ↑ | Avg Col. (%) ↓ |
|---|---|---|
| UniAD | 0.73 | 88.6 |
| VAD | 0.66 | 92.5 |
| ImpromptuVLA† | 2.06 | 65.1 |
| BridgeAD-B‡ | 3.06 | 44.3 |
| ColaVLA | 3.48 | 36.8 |
消融实验¶
| 推理模块 | 重思阶段 | Avg L2 (cm) ↓ |
|---|---|---|
| ✗ | ✗ | 32.2 |
| ✓ | ✗ | 31.3 |
| ✓ | ✓ | 30.4 |
| 规划器类型 | NeuroNCAP Score ↑ |
|---|---|
| MLP-based | 1.05 |
| Diffusion-based | 1.02 |
| Ours | 1.50 |
推理延迟比较:ColaVLA 727ms vs OmniDrive 3727ms vs SOLVE-VLM 3719ms(单 H20 GPU),实现 5× 加速。
关键发现¶
- 潜空间推理相比文本链式思考延迟降低 5 倍以上,但保持甚至提升规划质量
- 闭环评测中碰撞率从 65.1%(ImpromptuVLA)降至 36.8%,静态碰撞减少 73%
- 层次化插值策略(先预测端点再填充中间点)优于顺序/逆序/单尺度策略
- Top-K=256 安全关键 token 达到最佳精度-效率平衡
亮点与洞察¶
- 范式创新:首次系统提出将 VLM 推理从文本空间迁移到统一潜空间的完整框架,避免了模态不匹配和自回归延迟
- 认知启发式设计:四阶段推理过程(理解→识别→重思→决策)模拟人类驾驶认知,每阶段都有清晰的信息处理目标
- 因果一致的并行解码:通过精心设计的 hybrid attention mask 在单次前向传播中同时解码多尺度轨迹,兼顾效率和因果性
- 闭环 SOTA:在安全关键的 NeuroNCAP 评测上大幅超越先前方法,验证了潜空间推理在实际部署场景的有效性
局限性 / 可改进方向¶
- 仅在 nuScenes 单一数据集验证,未在更大规模或跨域数据上测试泛化性
- Meta-action 类别通过聚类硬编码,可能无法覆盖所有长尾驾驶场景
- 仍需依赖 LiDAR 和预训练感知模块,纯视觉设置下的效果未验证
- 闭环评测仅用 NeuroNCAP 单一模拟器,缺乏真实道路验证
相关工作与启发¶
- UniAD/VAD:端到端驾驶管线先驱,但依赖稀疏轨迹监督,缺乏高层语义推理
- DriveVLM/OmniDrive/EMMA:VLM-based 文本推理规划,推理延迟高
- ImpromptuVLA/SOLVE-VLM:结合 VLM 与规划器的双系统设计,但仍受限于文本级推理
- 潜空间推理思想可推广到机器人操作、视觉导航等需要快速决策的任务
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 5 |
| 技术深度 | 5 |
| 实验充分度 | 4 |
| 写作质量 | 4 |
| 实用价值 | 4 |
| 总评 | 4.5 |