CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention¶
会议: CVPR2026 arXiv: 2603.18561 代码: 待公开 领域: 自动驾驶 关键词: 因果推断, 后门调整, 去混杂, 端到端自动驾驶, 稀疏向量化表示, VAD
一句话总结¶
提出 CausalVAD,通过将 Pearl 后门调整理论参数化为即插即用模块(SCIS),在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预,消除虚假关联,实现更安全、更鲁棒的端到端自动驾驶。
研究背景与动机¶
- 端到端模型学的是相关性而非因果性:当前规划导向的端到端驾驶模型(UniAD、VAD 等)本质上通过标准监督学习拟合 \(P(Y|S)\),学到的是统计相关而非真正的因果关系,容易受数据集偏差影响产生"捷径学习"。
- 因果混淆导致安全隐患:模型可能把自车历史状态(速度、加速度)当作预测未来决策的捷径(虚假自相关),在开环评测上表现好,但闭环部署时一旦偏离专家轨迹就会灾难式崩溃。
- VLM 方案存在幻觉与伪忠实性:用大型视觉语言模型提供自然语言解释看似合理,但其推理过程可能与实际决策完全脱钩(pseudo-faithfulness),在安全关键领域引入新风险。
- nuScenes 数据集严重不平衡:约 75% 为直行场景,模型易学到"直行是默认行为"的虚假关联,转弯等少数场景性能大幅下降。
- 混杂因素是系统性级联问题:通过结构因果模型(SCM)分析可发现,VAD 中感知的共现偏差、预测的 BEV 公共因子、规划的输入相关性是三个不同信息节点上的混杂问题,需要多阶段针对性干预。
- 现有去混杂方法局限:启发式方法(状态丢弃、数据增强)缺乏理论保证;因果发现/反事实方法多用于离线分析或简化场景,难以高效嵌入大规模端到端模型的在线训练中。
方法详解¶
整体框架¶
CausalVAD 在 VAD 架构基础上引入稀疏因果干预方案(SCIS),核心思想:
- 首先用结构因果模型(SCM)形式化 VAD 的模块化流水线,识别三类后门路径
- 然后通过 后门调整 \(P(Y|\text{do}(S)) = \sum_z P(Y|S=s, Z=z) P(Z=z)\) 切断虚假路径
- 用可学习的原型字典近似潜在混杂因子 \(Z\),在神经网络中参数化 do 算子
多模态混杂因子字典构建¶
离线两步过程(仅执行一次):
- 特征提取:用预训练 VAD 对整个训练集单次前传,收集 Object/Map/Agent 三类查询的稀疏嵌入
- 原型聚类:对三类嵌入分别进行 K-means++ 聚类,质心作为原型,构成字典 \(\{\mathcal{Z}\} = \{\{\mathcal{Z}_o\}, \{\mathcal{Z}_m\}, \{\mathcal{Z}_a\}\}\),大小分别为 \((k_o, k_m, k_a) = (10, 3, 6)\)
关键干预模块¶
感知去混杂模块(PDM):
- 针对分类路径 \(\mathcal{O} \to \mathcal{Y}_o\) 和 \(\mathcal{M} \to \mathcal{Y}_m\) 的共现偏差
- 双分支结构:直接分类分数 vs 基于混杂因子字典的偏差分数,输出去混杂 logits
- 对称地应用于目标分类和地图元素分类
交互去混杂模块(IDM):
- 统一架构,多次实例化处理不同阶段的混杂问题
- 用交叉注意力估计查询中可由上下文预测的虚假成分,通过门控单元缩放后从原始查询中减去
- 预测阶段:\(\mathcal{O}' = \text{IDM}(\mathcal{O}, \{\mathcal{Z}_m\})\), \(\mathcal{M}' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_o\})\),打断 BEV 公共因子引发的虚假关联
- 规划阶段:\(\mathcal{A}' = \text{IDM}(\mathcal{A}, \{\mathcal{Z}_m\})\), \(\mathcal{M}'' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_a\})\),解耦高度相关的输入
训练策略¶
- 插入 PDM 和 IDM 后从头端到端训练(非微调),确保从一开始就学习去混杂的因果关系
- 损失函数与原始 VAD 完全一致,无需额外损失设计
- AdamW 优化器,初始学习率 \(2 \times 10^{-4}\),权重衰减 0.01,CosineAnnealing 调度,60 epochs,8×RTX 3090
实验¶
主要结果¶
nuScenes 开环规划(Table 1):
| 方法 | L2 Avg (m) ↓ | CR Avg (%) ↓ | FPS |
|---|---|---|---|
| UniAD | 0.73 | 0.61 | 1.8 |
| VAD-tiny | 0.74 | 0.44 | 5.6 |
| VAD | 0.62 | 0.38 | 3.1 |
| BridgeAD | 0.58 | 0.08 | 3.9 |
| SparseDrive | 0.61 | 0.10 | 6.1 |
| CausalVAD | 0.54 | 0.11 | 5.4 |
- 相比基线 VAD-tiny,L2 下降 27%,碰撞率下降 75%,几乎无额外计算开销
- 在所有方法中取得最低平均 L2 误差
NAVSIM & Bench2Drive(Table 4):
| 方法 | NAVSIM PDMS ↑ | B2D DS ↑ | B2D SR (%) ↑ |
|---|---|---|---|
| VAD-tiny | 80.5 | 42.73 | 14.18 |
| UniAD | 83.4 | 45.81 | 16.36 |
| CausalVAD | 87.2 | 49.83 | 19.42 |
因果鲁棒性分析¶
场景分布偏差鲁棒性(Table 2):VAD-tiny 在转弯场景 L2 从 0.75→1.07m 严重退化;CausalVAD 转弯场景 L2 仅 0.69m,甚至优于 VAD-tiny 直行时的表现。
自车状态捷径依赖(Table 3):将自车速度置零时,VAD-tiny L2 从 0.74→6.94m 暴涨,CausalVAD 从 0.54→4.80m,碰撞率从 0.11→1.20%(VAD-tiny 为 0.44→4.02%),对速度扰动的鲁棒性显著更强。
消融实验¶
模块贡献(Table 5):
| 配置 | PDM | IDM | L2 Avg ↓ | CR Avg ↓ |
|---|---|---|---|---|
| 基线 | × | × | 0.74 | 0.44 |
| +PDM | ✓ | × | 0.63 | 0.26 |
| +IDM | × | ✓ | 0.57 | 0.19 |
| 完整 | ✓ | ✓ | 0.54 | 0.11 |
- PDM 主要降低碰撞率,IDM 主要提升规划精度,两者互补
- 字典大小 \((10,3,6)\) 为最优配置,过小不足以捕获多样上下文,过大引入冗余
- 聚类算法选择(K-means/K-medoids/K-means++)对性能不敏感,方法鲁棒
关键发现¶
- T-SNE 可视化表明 CausalVAD 成功将不同导航意图(直行/左转/右转)解纠缠为可分离的聚类
- 定性分析中,面对加塞场景 VAD-tiny 注意力过度关注自车历史轨迹导致碰撞,CausalVAD 正确聚焦加塞车辆并安全减速
- VLA 模型(Senna)虽然动作安全但给出幻觉解释(将减速归因于不存在的限高问题),凸显 CausalVAD 内部逻辑的忠实性
亮点¶
- 理论扎实:将 Pearl 后门调整理论严格形式化地引入端到端驾驶,非启发式
- 即插即用:PDM 和 IDM 模块轻量且通用,FPS 从 5.6 几乎不降(5.4),可作为其他架构的插件
- 多维度鲁棒性验证全面:场景分布偏差、自车状态扰动、跨数据集泛化三个角度系统证明因果干预的有效性
- 揭示了稀疏向量化表示与因果干预的内在协同:VAD 的稀疏查询天然适合作为因果干预的操作对象
局限性¶
- 仅在 VAD 的顺序式架构上验证,尚未扩展到并行或迭代交互架构(如 SparseDrive 的并行解码)
- 混杂因子字典通过离线聚类构建,无法捕获训练集外的新型驾驶上下文
- 闭环评测(Bench2Drive)相比专门优化的方法(DriveMoE DS=74.22)仍有较大差距
- 原型数量 \((k_o, k_m, k_a)\) 需要网格搜索,缺乏自适应选择机制
相关工作¶
- 端到端驾驶架构:UniAD(光栅化 BEV)、VAD/SparseDrive(稀疏向量化)、BridgeAD——本文方法与架构探索正交
- 因果混淆缓解:状态丢弃 [6]、数据增强 [21](启发式);反事实推理 [30]、因果发现 [26](离线分析)——本文填补了在线后门调整的空白
- VLM 驾驶模型:Senna、OmniDrive、ORION——存在幻觉和伪忠实性问题,本文从因果内部一致性出发
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统地将后门调整参数化为端到端驾驶的即插即用模块
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集 + 多维鲁棒性分析 + 详尽消融
- 写作质量: ⭐⭐⭐⭐ — 因果分析逻辑链清晰,图示精良
- 价值: ⭐⭐⭐⭐ — 为自动驾驶提供了因果推断的实际落地范式,插件化设计实用性强