跳转至

RESBev: Making BEV Perception More Robust

会议: CVPR 2026
arXiv: 2603.09529
代码: 无
领域: 自动驾驶 / BEV感知鲁棒性
关键词: BEV感知, 鲁棒性, 世界模型, 对抗攻击, 即插即用

一句话总结

提出RESBev——一个即插即用的BEV感知鲁棒性增强框架,通过隐空间世界模型从历史干净帧预测当前BEV语义先验,再与被损坏的当前观测融合,在nuScenes上显著提升四种LSS模型在10种干扰下的平均IoU(+15~20个点)。

背景与动机

BEV感知是自动驾驶的核心表示,但real-world部署面临两大威胁:(1)自然干扰(雾、暗、雪、相机崩溃、帧丢失),(2)对抗攻击(FGSM/PGD/C&W)。这些干扰可导致感知IoU从33→9(LSS在对抗攻击下)的灾难性下降。现有防御策略要么依赖昂贵的多模态融合、要么只能对付特定类型干扰无法泛化、要么与特定架构紧耦合。需要一种轻量、通用、可泛化的防御方案。

核心问题

如何将BEV感知鲁棒性问题重新构建为时序预测问题,利用驾驶场景的时间一致性从历史干净帧恢复当前被损坏的BEV特征?

方法详解

整体框架

RESBev作为即插即用模块插入LSS管线的Splat阶段。两个核心组件:(1)语义先验预测器(Semantic Prior Predictor) 从上一帧的重建特征和自车运动预测当前干净BEV先验,(2)异常重建器(Anomaly Reconstructor) 将预测先验与当前被损坏的观测通过交叉注意力融合,自适应地提取有效信息。

关键设计

  1. 三层空间分析驱动设计:
  2. 空间选择: BEV空间(Splat)比图像空间(Lift)时间一致性高得多——在持续干扰下BEV特征稳定而图像特征剧烈波动
  3. 深度选择: 在高维语义特征(Splat)而非低维任务输出(Shoot)上操作——后者信息压缩后无法恢复
  4. 机制选择: 生成式预测(世界模型)优于简单时间聚合——因为对抗扰动在特征空间中几乎不可察觉(低MSE)但语义上灾难性,注意力聚合无法过滤

  5. 语义先验预测器: 视觉编码器\(E_{vis}\)+动作编码器\(E_{act}\)→拼接→Transformer世界模型(LDWM)→解码器\(D\)。输入上一帧重建特征\(f_{t-1}^{rec}\)和自车运动\(a_{t-1}\),预测当前干净先验\(f_t^{pred}\)

  6. 异常重建器: 预测先验\(f_t^{pred}\)作为Query,[上一帧重建特征, 当前损坏特征]拼接作为Key/Value。可学习门控因子\(\alpha\)控制信息流:\(f_t^{rec} = f_t^{pred} + \alpha \cdot \text{CrossAttn}(Q, KV)\)。当损坏严重时\(\alpha\)自动减小,更依赖历史先验。

损失函数 / 训练策略

基于概率图模型推导ELBO训练目标,包含三项:(1)预测先验的观测重建似然,(2)重建特征的任务标签似然,(3)KL正则化项。联合训练Predictor和Reconstructor。Few-shot微调即可适应不同LSS基线模型。

实验关键数据

10种干扰平均IoU(LSS基线):

干扰类型 Vanilla IoU +RESBev IoU 提升
FGSM 10.28 28.42 +18.14
PGD 9.17 31.47 +22.30
Fog 9.93 28.39 +18.46
Frame Lost 10.65 28.33 +17.68
整体平均 9.96 29.02 +19.06

GraphBEV(SOTA鲁棒方法)整体平均仅24.00,RESBev在四个基线模型上均超过它(29~32 IoU)。

泛化到未见干扰: 在5种训练干扰上训练,在5种未见干扰上测试,RESBev仍提供+17~19 IoU改善。

连续10帧损坏: IoU从第1帧到第10帧仅下降0.5%~1.75%,展示长时间鲁棒稳定性。

消融实验要点

  • Splat阶段介入(IoU 31.6)远优于Lift(16.4)和Shoot(18.7)
  • 世界模型(30.11)远优于时间注意力聚合(20.17)和单帧基线(15.53)
  • Predictor+Reconstructor比仅用Predictor提升7~9%

亮点

  • 分析驱动设计(Sec.3)极有说服力——空间/深度/机制三个维度的系统分析清晰地驱动了架构选择
  • 即插即用设计:不修改backbone,可直接增强任何LSS基线
  • 对抗攻击防御效果惊人(LSS上PGD恢复从9.17→31.47,接近干净性能)
  • t-SNE可视化揭示损坏的径向几何结构,增加了对问题的理解

局限性 / 可改进方向

  • 世界模型预测依赖历史帧——如果序列起始就被损坏则无法工作
  • 仅在nuScenes语义分割任务上验证,未测试3D目标检测
  • 运行时间未详细报告(世界模型推理可能增加延迟,这对自动驾驶实时性至关重要)
  • 仅支持LSS系管线,未验证BEVFormer等query-based方法

与相关工作的对比

  • GraphBEV: 基于图推理的鲁棒BEV方法,干净数据61.47但干扰下降至~24,本文超过它
  • RoboBEV: 提供鲁棒性benchmark但不提供防御方案,本文在其协议上评估
  • BEVWorld/LAW: 使用世界模型做规划/预训练,本文首次将世界模型用于感知鲁棒性

启发与关联

  • 将鲁棒性问题转化为时序预测问题是非常有启发性的视角——任何有时间结构的系统都可以用类似方式对抗损坏
  • 分析中发现对抗扰动在特征空间中"几乎不可见但语义上致命"的insight,解释了为什么简单过滤/聚合无效
  • 即插即用+few-shot微调的设计模式值得推广到其他需要鲁棒性增强的管线中

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将BEV鲁棒性重构为世界模型预测问题是全新视角,分析驱动设计方法论优秀
  • 实验充分度: ⭐⭐⭐⭐ 4个基线模型、10种干扰、泛化测试、连续损坏、消融全面,但缺少3D检测和延迟分析
  • 写作质量: ⭐⭐⭐⭐⭐ Sec.3的分析驱动动机是论文写作的范例,逻辑严密清晰
  • 价值: ⭐⭐⭐⭐⭐ 对自动驾驶安全感知有直接实用价值,即插即用设计降低了部署门槛