ExpertAD: Enhancing Autonomous Driving Systems with Mixture of Experts¶

会议: AAAI 2026
arXiv: 2511.11740
代码: 无
领域: 自动驾驶
关键词: 端到端自动驾驶, 混合专家, 感知适配, 稀疏注意力, 推理效率

一句话总结¶

提出 ExpertAD，将混合专家（MoE）架构引入端到端自动驾驶系统的感知和预测模块——Perception Adapter 动态重加权 BEV 特征以放大任务关键语义，Mixture of Sparse Experts 通过路由器动态激活相关驾驶任务专家并用稀疏注意力降低计算量，在保持或提升规划效果的同时降低约 25% 推理延迟。

研究背景与动机¶

端到端自动驾驶系统（ADS）通过统一感知-预测-规划流水线取得了显著进展，但仍面临两大核心挑战：

1. 语义模糊干扰决策：BEV 特征包含各种语义信息（道路、车辆、交通标志等），但不同感知任务（跟踪 vs 建图）的关注点不同。直接传递全部特征可能让非关键维度掩盖关键信息。

2. 多任务干扰与推理延迟：预测模块包含本车状态估计、环境交互建模、导航执行等多种任务，全部激活会导致任务间干扰并增加计算开销。例如建图任务有助于弯道规划但对直行作用不大——不同场景需要不同任务组合。

现有 MoE 在自动驾驶中的应用多局限于单一模块（如规划中的轨迹选择），且面临动态场景中专家激活不稳定的问题。先前效率优化方法（DriveAdapter、PlanKD）以牺牲规划质量为代价换取速度。

方法详解¶

整体框架¶

ExpertAD 是一个即插即用的框架，可集成到现有 Transformer 基端到端 ADS（如 UniAD、VAD、VADv2）中。它替换原有的感知和预测模块：

BEV Encoder（保留）→ 生成 BEV 特征
Perception Adapter (PA)（新增）→ 动态选择和放大任务关键特征通道
Mixture of Sparse Experts (MoSE)（新增）→ 动态路由激活相关专家，稀疏注意力降低计算量
Planning Module（保留）→ 基于 MoSE 输出的 motion query 生成最终轨迹

关键设计¶

1. Perception Adapter (PA)

包含两个子组件：

Learned Adapter：为每个任务学习通道选择权重。先对 BEV 特征做时间维归一化和池化，然后用任务特定可学习参数 \(w^{(t)}\) 计算各通道的重要性分数：

\[s = \frac{1}{H \times W}\sum_{i,j} \tilde{\text{BEV}}_{:,i,j} \odot w\]

通过约束优化求解软通道选择权重 \(\lambda^{(t)} \in [0,1]^d\)，保证聚焦 \(\tau\) 个主导通道：

\[\max_\lambda \; s^\top \lambda + \epsilon\Omega(\lambda), \quad \text{s.t.} \; \mathbf{1}^\top\lambda = \tau, \; \lambda \in [0,1]^d\]

Alignment Layer：用选择权重重标定 BEV 特征：

\[F_{align} = \text{MLP}(\text{BEV} \odot \lambda) + \text{BEV}\]

MLP 引入非线性变换，残差连接保留原始空间信息并提供梯度捷径。对齐后的特征分别送入跟踪/建图 Transformer，输出 agent query 和 map query，拼接可学习 embedding 形成 ego query。

2. Mixture of Sparse Experts (MoSE)

将预测任务分为三组八个稀疏专家（Sparse Experts）：

专家类别	专家名称	稀疏注意力类型	功能
Environmental	Tracking Expert, Mapping Expert	Block-wise（块大小 m）	处理动态前景/地图拓扑
Ego State	Velocity, Yaw, Acceleration Expert	Sliding Window（窗口 w）	平滑车辆动力学建模
Navigation	Reference Point, BEV, Command Expert	Global TopK	长距离依赖和导航指令

每个专家通过各自的稀疏注意力机制融合 ego query 和专家特定嵌入：

\[\bar{\mathcal{F}}_{expert} = \text{MHCA}(\mathcal{F}_{ego}, \mathcal{F}_{expert}, \mathcal{F}_{expert})\]

Router：基于 MoE 门控机制，用可学习参数 \(\mathbf{W}_{gate}\) 将 ego query 映射为专家 logits，训练时加入高斯噪声增加随机性，选择 Top-K 专家加权求和生成最终 motion query：

\[\mathcal{F}_{Motion} = \sum_{i=1}^k \mathcal{R}(\mathcal{F}_{ego})_i \cdot \bar{\mathcal{F}}_{expert_i}\]

损失函数 / 训练策略¶

总损失包含四项：

\[\mathcal{L}_{total} = \alpha_1\mathcal{L}_{perception} + \alpha_2\mathcal{L}_{prediction} + \alpha_3\mathcal{L}_{planning} + \alpha_4\mathcal{L}_{switch}\]

其中 Switch Loss 鼓励专家负载均衡：

\[\mathcal{L}_{switch} = N \cdot \sum_{i=1}^N f_i \cdot \mathcal{P}_i\]

惩罚实际负载 \(f_i\) 和期望路由概率 \(\mathcal{P}_i\) 不一致的专家。训练保持与基线相同的超参数，8× A100 GPU。

实验关键数据¶

主实验¶

表1：整体性能（Open-loop + Closed-loop + 效率）

方法	Avg.Col↓	Avg.L2↓	DS↑	SR↑	RC↑	Latency↓
UniAD	0.31	1.03	44.62	14.09	68.68	534ms
Expert-UniAD	0.24	0.89	55.49	20.63	81.04	445ms
VAD	0.43	1.21	43.31	17.27	61.60	225ms
Expert-VAD	0.34	1.10	52.53	19.53	76.73	157ms
VADv2	0.12	0.33	75.90	55.01	90.08	330ms
Expert-VADv2	0.10	0.28	78.18	58.34	89.32	258ms

表2：稀有场景多技能能力（Bench2Drive220）

方法	Merge↑	Overtake↑	EmgBrake↑	GiveWay↑	Tsign↑
UniAD	12.66	13.33	20.00	10.00	13.23
Expert-UniAD	27.38	23.67	51.67	20.00	40.93
VADv2	36.25	48.33	74.28	50.00	60.14
Expert-VADv2	40.44	48.33	78.42	40.00	65.78

三个基线平均：碰撞率降低约 20%，推理延迟降低约 25%，DS/SR/RC 分别提升 16%/22%/14%。

消融实验¶

PA 超参 τ：τ=128 最优（DS=52.53, SR=18.41, RC=76.73）；τ 过大（256）引入冗余反而下降
MoSE Top-K：Top-4 优于 Top-8 全激活——选择性激活有效减少任务干扰
PA 组件：MLP + ADD 组合 AMOTA 0.404 > 仅 ADD 的 0.390 > baseline 0.388
MoSE 组件：Router 降低 L2 和碰撞率；Sparse Attention 显著降低延迟（Expert-UniAD 降 178ms），两者互补

关键发现¶

MoE 在 ADS 中的价值不仅是效率——动态专家选择减少了多任务干扰，同时提升规划效果与效率
紧急制动和交通标志场景提升最大（因为这些场景的感知信息最丰富），而超车和让行场需要复杂推理，MoE 贡献有限
跨城市泛化实验（波士顿训练→新加坡测试）显示 ExpertAD 碰撞率从 0.66 降至 0.46（Expert-UniAD），泛化能力较强
统计显著性检验：所有改进 p-value 平均 0.026（p<0.05），结果可靠

亮点与洞察¶

横跨感知和预测的端到端 MoE 设计，不同于先前仅在规划模块使用 MoE 的方法
PA 的通道选择是可微且有约束的优化问题，比硬剪枝或静态选择更优雅
三类专家配备不同稀疏注意力机制，体现了对各任务特性的深入理解：环境→局部块、车辆状态→滑动窗口、导航→全局 TopK
即插即用的设计使其可直接增强 UniAD、VAD、VADv2 等多种基线，通用性强

局限性 / 可改进方向¶

专家数量（8个）和Top-K 值需要手动设定，可探索自适应专家选择
参数量增加（UniAD 89M→125M），尽管 GFLOPs 和延迟下降，但部署时内存开销增加
超车和让行场景改善有限，暗示需要更高层次的推理能力，MoE 可能需要与 LLM/世界模型结合
目前仅验证了视觉输入的场景，对多模态（LiDAR+Camera）融合的适用性未探索

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	5
写作质量	4
实用价值	5
总评	4.4