CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention¶

会议: CVPR2026 arXiv: 2603.18561 代码: 待公开领域: 自动驾驶 关键词: 因果推断, 后门调整, 去混杂, 端到端自动驾驶, 稀疏向量化表示, VAD

一句话总结¶

提出 CausalVAD，通过将 Pearl 后门调整理论参数化为即插即用模块（SCIS），在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预，消除虚假关联，实现更安全、更鲁棒的端到端自动驾驶。

研究背景与动机¶

端到端模型学的是相关性而非因果性：当前规划导向的端到端驾驶模型（UniAD、VAD 等）本质上通过标准监督学习拟合 \(P(Y|S)\)，学到的是统计相关而非真正的因果关系，容易受数据集偏差影响产生"捷径学习"。
因果混淆导致安全隐患：模型可能把自车历史状态（速度、加速度）当作预测未来决策的捷径（虚假自相关），在开环评测上表现好，但闭环部署时一旦偏离专家轨迹就会灾难式崩溃。
VLM 方案存在幻觉与伪忠实性：用大型视觉语言模型提供自然语言解释看似合理，但其推理过程可能与实际决策完全脱钩（pseudo-faithfulness），在安全关键领域引入新风险。
nuScenes 数据集严重不平衡：约 75% 为直行场景，模型易学到"直行是默认行为"的虚假关联，转弯等少数场景性能大幅下降。
混杂因素是系统性级联问题：通过结构因果模型（SCM）分析可发现，VAD 中感知的共现偏差、预测的 BEV 公共因子、规划的输入相关性是三个不同信息节点上的混杂问题，需要多阶段针对性干预。
现有去混杂方法局限：启发式方法（状态丢弃、数据增强）缺乏理论保证；因果发现/反事实方法多用于离线分析或简化场景，难以高效嵌入大规模端到端模型的在线训练中。

方法详解¶

整体框架¶

CausalVAD 在 VAD 架构基础上引入稀疏因果干预方案（SCIS），核心思想：

首先用结构因果模型（SCM）形式化 VAD 的模块化流水线，识别三类后门路径
然后通过 后门调整 \(P(Y|\text{do}(S)) = \sum_z P(Y|S=s, Z=z) P(Z=z)\) 切断虚假路径
用可学习的原型字典近似潜在混杂因子 \(Z\)，在神经网络中参数化 do 算子

多模态混杂因子字典构建¶

离线两步过程（仅执行一次）：

特征提取：用预训练 VAD 对整个训练集单次前传，收集 Object/Map/Agent 三类查询的稀疏嵌入
原型聚类：对三类嵌入分别进行 K-means++ 聚类，质心作为原型，构成字典 \(\{\mathcal{Z}\} = \{\{\mathcal{Z}_o\}, \{\mathcal{Z}_m\}, \{\mathcal{Z}_a\}\}\)，大小分别为 \((k_o, k_m, k_a) = (10, 3, 6)\)

关键干预模块¶

感知去混杂模块（PDM）：

针对分类路径 \(\mathcal{O} \to \mathcal{Y}_o\) 和 \(\mathcal{M} \to \mathcal{Y}_m\) 的共现偏差
双分支结构：直接分类分数 vs 基于混杂因子字典的偏差分数，输出去混杂 logits
对称地应用于目标分类和地图元素分类

交互去混杂模块（IDM）：

统一架构，多次实例化处理不同阶段的混杂问题
用交叉注意力估计查询中可由上下文预测的虚假成分，通过门控单元缩放后从原始查询中减去
预测阶段：\(\mathcal{O}' = \text{IDM}(\mathcal{O}, \{\mathcal{Z}_m\})\), \(\mathcal{M}' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_o\})\)，打断 BEV 公共因子引发的虚假关联
规划阶段：\(\mathcal{A}' = \text{IDM}(\mathcal{A}, \{\mathcal{Z}_m\})\), \(\mathcal{M}'' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_a\})\)，解耦高度相关的输入

训练策略¶

插入 PDM 和 IDM 后从头端到端训练（非微调），确保从一开始就学习去混杂的因果关系
损失函数与原始 VAD 完全一致，无需额外损失设计
AdamW 优化器，初始学习率 \(2 \times 10^{-4}\)，权重衰减 0.01，CosineAnnealing 调度，60 epochs，8×RTX 3090

实验¶

主要结果¶

nuScenes 开环规划（Table 1）：

方法	L2 Avg (m) ↓	CR Avg (%) ↓	FPS
UniAD	0.73	0.61	1.8
VAD-tiny	0.74	0.44	5.6
VAD	0.62	0.38	3.1
BridgeAD	0.58	0.08	3.9
SparseDrive	0.61	0.10	6.1
CausalVAD	0.54	0.11	5.4

相比基线 VAD-tiny，L2 下降 27%，碰撞率下降 75%，几乎无额外计算开销
在所有方法中取得最低平均 L2 误差

NAVSIM & Bench2Drive（Table 4）：

方法	NAVSIM PDMS ↑	B2D DS ↑	B2D SR (%) ↑
VAD-tiny	80.5	42.73	14.18
UniAD	83.4	45.81	16.36
CausalVAD	87.2	49.83	19.42

因果鲁棒性分析¶

场景分布偏差鲁棒性（Table 2）：VAD-tiny 在转弯场景 L2 从 0.75→1.07m 严重退化；CausalVAD 转弯场景 L2 仅 0.69m，甚至优于 VAD-tiny 直行时的表现。

自车状态捷径依赖（Table 3）：将自车速度置零时，VAD-tiny L2 从 0.74→6.94m 暴涨，CausalVAD 从 0.54→4.80m，碰撞率从 0.11→1.20%（VAD-tiny 为 0.44→4.02%），对速度扰动的鲁棒性显著更强。

消融实验¶

模块贡献（Table 5）：

配置	PDM	IDM	L2 Avg ↓	CR Avg ↓
基线	×	×	0.74	0.44
+PDM	✓	×	0.63	0.26
+IDM	×	✓	0.57	0.19
完整	✓	✓	0.54	0.11

PDM 主要降低碰撞率，IDM 主要提升规划精度，两者互补
字典大小 \((10,3,6)\) 为最优配置，过小不足以捕获多样上下文，过大引入冗余
聚类算法选择（K-means/K-medoids/K-means++）对性能不敏感，方法鲁棒

关键发现¶

T-SNE 可视化表明 CausalVAD 成功将不同导航意图（直行/左转/右转）解纠缠为可分离的聚类
定性分析中，面对加塞场景 VAD-tiny 注意力过度关注自车历史轨迹导致碰撞，CausalVAD 正确聚焦加塞车辆并安全减速
VLA 模型（Senna）虽然动作安全但给出幻觉解释（将减速归因于不存在的限高问题），凸显 CausalVAD 内部逻辑的忠实性

亮点¶

理论扎实：将 Pearl 后门调整理论严格形式化地引入端到端驾驶，非启发式
即插即用：PDM 和 IDM 模块轻量且通用，FPS 从 5.6 几乎不降（5.4），可作为其他架构的插件
多维度鲁棒性验证全面：场景分布偏差、自车状态扰动、跨数据集泛化三个角度系统证明因果干预的有效性
揭示了稀疏向量化表示与因果干预的内在协同：VAD 的稀疏查询天然适合作为因果干预的操作对象

局限性¶

仅在 VAD 的顺序式架构上验证，尚未扩展到并行或迭代交互架构（如 SparseDrive 的并行解码）
混杂因子字典通过离线聚类构建，无法捕获训练集外的新型驾驶上下文
闭环评测（Bench2Drive）相比专门优化的方法（DriveMoE DS=74.22）仍有较大差距
原型数量 \((k_o, k_m, k_a)\) 需要网格搜索，缺乏自适应选择机制

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统地将后门调整参数化为端到端驾驶的即插即用模块
实验充分度: ⭐⭐⭐⭐ — 三个数据集 + 多维鲁棒性分析 + 详尽消融
写作质量: ⭐⭐⭐⭐ — 因果分析逻辑链清晰，图示精良
价值: ⭐⭐⭐⭐ — 为自动驾驶提供了因果推断的实际落地范式，插件化设计实用性强