跳转至

CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention

会议: CVPR2026 arXiv: 2603.18561 代码: 待公开 领域: 自动驾驶 关键词: 因果推断, 后门调整, 去混杂, 端到端自动驾驶, 稀疏向量化表示, VAD

一句话总结

提出 CausalVAD,通过将 Pearl 后门调整理论参数化为即插即用模块(SCIS),在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预,消除虚假关联,实现更安全、更鲁棒的端到端自动驾驶。

研究背景与动机

  1. 端到端模型学的是相关性而非因果性:当前规划导向的端到端驾驶模型(UniAD、VAD 等)本质上通过标准监督学习拟合 \(P(Y|S)\),学到的是统计相关而非真正的因果关系,容易受数据集偏差影响产生"捷径学习"。
  2. 因果混淆导致安全隐患:模型可能把自车历史状态(速度、加速度)当作预测未来决策的捷径(虚假自相关),在开环评测上表现好,但闭环部署时一旦偏离专家轨迹就会灾难式崩溃。
  3. VLM 方案存在幻觉与伪忠实性:用大型视觉语言模型提供自然语言解释看似合理,但其推理过程可能与实际决策完全脱钩(pseudo-faithfulness),在安全关键领域引入新风险。
  4. nuScenes 数据集严重不平衡:约 75% 为直行场景,模型易学到"直行是默认行为"的虚假关联,转弯等少数场景性能大幅下降。
  5. 混杂因素是系统性级联问题:通过结构因果模型(SCM)分析可发现,VAD 中感知的共现偏差、预测的 BEV 公共因子、规划的输入相关性是三个不同信息节点上的混杂问题,需要多阶段针对性干预。
  6. 现有去混杂方法局限:启发式方法(状态丢弃、数据增强)缺乏理论保证;因果发现/反事实方法多用于离线分析或简化场景,难以高效嵌入大规模端到端模型的在线训练中。

方法详解

整体框架

CausalVAD 在 VAD 架构基础上引入稀疏因果干预方案(SCIS),核心思想:

  • 首先用结构因果模型(SCM)形式化 VAD 的模块化流水线,识别三类后门路径
  • 然后通过 后门调整 \(P(Y|\text{do}(S)) = \sum_z P(Y|S=s, Z=z) P(Z=z)\) 切断虚假路径
  • 用可学习的原型字典近似潜在混杂因子 \(Z\),在神经网络中参数化 do 算子

多模态混杂因子字典构建

离线两步过程(仅执行一次):

  1. 特征提取:用预训练 VAD 对整个训练集单次前传,收集 Object/Map/Agent 三类查询的稀疏嵌入
  2. 原型聚类:对三类嵌入分别进行 K-means++ 聚类,质心作为原型,构成字典 \(\{\mathcal{Z}\} = \{\{\mathcal{Z}_o\}, \{\mathcal{Z}_m\}, \{\mathcal{Z}_a\}\}\),大小分别为 \((k_o, k_m, k_a) = (10, 3, 6)\)

关键干预模块

感知去混杂模块(PDM)

  • 针对分类路径 \(\mathcal{O} \to \mathcal{Y}_o\)\(\mathcal{M} \to \mathcal{Y}_m\) 的共现偏差
  • 双分支结构:直接分类分数 vs 基于混杂因子字典的偏差分数,输出去混杂 logits
  • 对称地应用于目标分类和地图元素分类

交互去混杂模块(IDM)

  • 统一架构,多次实例化处理不同阶段的混杂问题
  • 用交叉注意力估计查询中可由上下文预测的虚假成分,通过门控单元缩放后从原始查询中减去
  • 预测阶段\(\mathcal{O}' = \text{IDM}(\mathcal{O}, \{\mathcal{Z}_m\})\), \(\mathcal{M}' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_o\})\),打断 BEV 公共因子引发的虚假关联
  • 规划阶段\(\mathcal{A}' = \text{IDM}(\mathcal{A}, \{\mathcal{Z}_m\})\), \(\mathcal{M}'' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_a\})\),解耦高度相关的输入

训练策略

  • 插入 PDM 和 IDM 后从头端到端训练(非微调),确保从一开始就学习去混杂的因果关系
  • 损失函数与原始 VAD 完全一致,无需额外损失设计
  • AdamW 优化器,初始学习率 \(2 \times 10^{-4}\),权重衰减 0.01,CosineAnnealing 调度,60 epochs,8×RTX 3090

实验

主要结果

nuScenes 开环规划(Table 1)

方法 L2 Avg (m) ↓ CR Avg (%) ↓ FPS
UniAD 0.73 0.61 1.8
VAD-tiny 0.74 0.44 5.6
VAD 0.62 0.38 3.1
BridgeAD 0.58 0.08 3.9
SparseDrive 0.61 0.10 6.1
CausalVAD 0.54 0.11 5.4
  • 相比基线 VAD-tiny,L2 下降 27%,碰撞率下降 75%,几乎无额外计算开销
  • 在所有方法中取得最低平均 L2 误差

NAVSIM & Bench2Drive(Table 4)

方法 NAVSIM PDMS ↑ B2D DS ↑ B2D SR (%) ↑
VAD-tiny 80.5 42.73 14.18
UniAD 83.4 45.81 16.36
CausalVAD 87.2 49.83 19.42

因果鲁棒性分析

场景分布偏差鲁棒性(Table 2):VAD-tiny 在转弯场景 L2 从 0.75→1.07m 严重退化;CausalVAD 转弯场景 L2 仅 0.69m,甚至优于 VAD-tiny 直行时的表现。

自车状态捷径依赖(Table 3):将自车速度置零时,VAD-tiny L2 从 0.74→6.94m 暴涨,CausalVAD 从 0.54→4.80m,碰撞率从 0.11→1.20%(VAD-tiny 为 0.44→4.02%),对速度扰动的鲁棒性显著更强。

消融实验

模块贡献(Table 5)

配置 PDM IDM L2 Avg ↓ CR Avg ↓
基线 × × 0.74 0.44
+PDM × 0.63 0.26
+IDM × 0.57 0.19
完整 0.54 0.11
  • PDM 主要降低碰撞率,IDM 主要提升规划精度,两者互补
  • 字典大小 \((10,3,6)\) 为最优配置,过小不足以捕获多样上下文,过大引入冗余
  • 聚类算法选择(K-means/K-medoids/K-means++)对性能不敏感,方法鲁棒

关键发现

  1. T-SNE 可视化表明 CausalVAD 成功将不同导航意图(直行/左转/右转)解纠缠为可分离的聚类
  2. 定性分析中,面对加塞场景 VAD-tiny 注意力过度关注自车历史轨迹导致碰撞,CausalVAD 正确聚焦加塞车辆并安全减速
  3. VLA 模型(Senna)虽然动作安全但给出幻觉解释(将减速归因于不存在的限高问题),凸显 CausalVAD 内部逻辑的忠实性

亮点

  • 理论扎实:将 Pearl 后门调整理论严格形式化地引入端到端驾驶,非启发式
  • 即插即用:PDM 和 IDM 模块轻量且通用,FPS 从 5.6 几乎不降(5.4),可作为其他架构的插件
  • 多维度鲁棒性验证全面:场景分布偏差、自车状态扰动、跨数据集泛化三个角度系统证明因果干预的有效性
  • 揭示了稀疏向量化表示与因果干预的内在协同:VAD 的稀疏查询天然适合作为因果干预的操作对象

局限性

  • 仅在 VAD 的顺序式架构上验证,尚未扩展到并行或迭代交互架构(如 SparseDrive 的并行解码)
  • 混杂因子字典通过离线聚类构建,无法捕获训练集外的新型驾驶上下文
  • 闭环评测(Bench2Drive)相比专门优化的方法(DriveMoE DS=74.22)仍有较大差距
  • 原型数量 \((k_o, k_m, k_a)\) 需要网格搜索,缺乏自适应选择机制

相关工作

  • 端到端驾驶架构:UniAD(光栅化 BEV)、VAD/SparseDrive(稀疏向量化)、BridgeAD——本文方法与架构探索正交
  • 因果混淆缓解:状态丢弃 [6]、数据增强 [21](启发式);反事实推理 [30]、因果发现 [26](离线分析)——本文填补了在线后门调整的空白
  • VLM 驾驶模型:Senna、OmniDrive、ORION——存在幻觉和伪忠实性问题,本文从因果内部一致性出发

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统地将后门调整参数化为端到端驾驶的即插即用模块
  • 实验充分度: ⭐⭐⭐⭐ — 三个数据集 + 多维鲁棒性分析 + 详尽消融
  • 写作质量: ⭐⭐⭐⭐ — 因果分析逻辑链清晰,图示精良
  • 价值: ⭐⭐⭐⭐ — 为自动驾驶提供了因果推断的实际落地范式,插件化设计实用性强