RESBev: Making BEV Perception More Robust¶

会议: CVPR 2026
arXiv: 2603.09529
代码: 无
领域: 自动驾驶 / BEV感知鲁棒性
关键词: BEV感知, 鲁棒性, 世界模型, 对抗攻击, 即插即用

一句话总结¶

提出RESBev——一个即插即用的BEV感知鲁棒性增强框架，通过隐空间世界模型从历史干净帧预测当前BEV语义先验，再与被损坏的当前观测融合，在nuScenes上显著提升四种LSS模型在10种干扰下的平均IoU（+15~20个点）。

背景与动机¶

BEV感知是自动驾驶的核心表示，但real-world部署面临两大威胁：(1)自然干扰（雾、暗、雪、相机崩溃、帧丢失），(2)对抗攻击（FGSM/PGD/C&W）。这些干扰可导致感知IoU从33→9（LSS在对抗攻击下）的灾难性下降。现有防御策略要么依赖昂贵的多模态融合、要么只能对付特定类型干扰无法泛化、要么与特定架构紧耦合。需要一种轻量、通用、可泛化的防御方案。

核心问题¶

如何将BEV感知鲁棒性问题重新构建为时序预测问题，利用驾驶场景的时间一致性从历史干净帧恢复当前被损坏的BEV特征？

方法详解¶

整体框架¶

RESBev作为即插即用模块插入LSS管线的Splat阶段。两个核心组件：(1)语义先验预测器(Semantic Prior Predictor) 从上一帧的重建特征和自车运动预测当前干净BEV先验，(2)异常重建器(Anomaly Reconstructor) 将预测先验与当前被损坏的观测通过交叉注意力融合，自适应地提取有效信息。

关键设计¶

三层空间分析驱动设计:
空间选择: BEV空间(Splat)比图像空间(Lift)时间一致性高得多——在持续干扰下BEV特征稳定而图像特征剧烈波动
深度选择: 在高维语义特征(Splat)而非低维任务输出(Shoot)上操作——后者信息压缩后无法恢复
机制选择: 生成式预测(世界模型)优于简单时间聚合——因为对抗扰动在特征空间中几乎不可察觉(低MSE)但语义上灾难性，注意力聚合无法过滤
语义先验预测器: 视觉编码器\(E_{vis}\)+动作编码器\(E_{act}\)→拼接→Transformer世界模型(LDWM)→解码器\(D\)。输入上一帧重建特征\(f_{t-1}^{rec}\)和自车运动\(a_{t-1}\)，预测当前干净先验\(f_t^{pred}\)。
异常重建器: 预测先验\(f_t^{pred}\)作为Query，[上一帧重建特征, 当前损坏特征]拼接作为Key/Value。可学习门控因子\(\alpha\)控制信息流：\(f_t^{rec} = f_t^{pred} + \alpha \cdot \text{CrossAttn}(Q, KV)\)。当损坏严重时\(\alpha\)自动减小，更依赖历史先验。

损失函数 / 训练策略¶

基于概率图模型推导ELBO训练目标，包含三项：(1)预测先验的观测重建似然，(2)重建特征的任务标签似然，(3)KL正则化项。联合训练Predictor和Reconstructor。Few-shot微调即可适应不同LSS基线模型。

实验关键数据¶

10种干扰平均IoU（LSS基线）：

干扰类型	Vanilla IoU	+RESBev IoU	提升
FGSM	10.28	28.42	+18.14
PGD	9.17	31.47	+22.30
Fog	9.93	28.39	+18.46
Frame Lost	10.65	28.33	+17.68
整体平均	9.96	29.02	+19.06

GraphBEV（SOTA鲁棒方法）整体平均仅24.00，RESBev在四个基线模型上均超过它（29~32 IoU）。

泛化到未见干扰: 在5种训练干扰上训练，在5种未见干扰上测试，RESBev仍提供+17~19 IoU改善。

连续10帧损坏: IoU从第1帧到第10帧仅下降0.5%~1.75%，展示长时间鲁棒稳定性。

消融实验要点¶

Splat阶段介入(IoU 31.6)远优于Lift(16.4)和Shoot(18.7)
世界模型(30.11)远优于时间注意力聚合(20.17)和单帧基线(15.53)
Predictor+Reconstructor比仅用Predictor提升7~9%

亮点¶

分析驱动设计（Sec.3）极有说服力——空间/深度/机制三个维度的系统分析清晰地驱动了架构选择
即插即用设计：不修改backbone，可直接增强任何LSS基线
对抗攻击防御效果惊人（LSS上PGD恢复从9.17→31.47，接近干净性能）
t-SNE可视化揭示损坏的径向几何结构，增加了对问题的理解

局限性 / 可改进方向¶

世界模型预测依赖历史帧——如果序列起始就被损坏则无法工作
仅在nuScenes语义分割任务上验证，未测试3D目标检测
运行时间未详细报告（世界模型推理可能增加延迟，这对自动驾驶实时性至关重要）
仅支持LSS系管线，未验证BEVFormer等query-based方法

与相关工作的对比¶

GraphBEV: 基于图推理的鲁棒BEV方法，干净数据61.47但干扰下降至~24，本文超过它
RoboBEV: 提供鲁棒性benchmark但不提供防御方案，本文在其协议上评估
BEVWorld/LAW: 使用世界模型做规划/预训练，本文首次将世界模型用于感知鲁棒性

启发与关联¶

将鲁棒性问题转化为时序预测问题是非常有启发性的视角——任何有时间结构的系统都可以用类似方式对抗损坏
分析中发现对抗扰动在特征空间中"几乎不可见但语义上致命"的insight，解释了为什么简单过滤/聚合无效
即插即用+few-shot微调的设计模式值得推广到其他需要鲁棒性增强的管线中

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将BEV鲁棒性重构为世界模型预测问题是全新视角，分析驱动设计方法论优秀
实验充分度: ⭐⭐⭐⭐ 4个基线模型、10种干扰、泛化测试、连续损坏、消融全面，但缺少3D检测和延迟分析
写作质量: ⭐⭐⭐⭐⭐ Sec.3的分析驱动动机是论文写作的范例，逻辑严密清晰
价值: ⭐⭐⭐⭐⭐ 对自动驾驶安全感知有直接实用价值，即插即用设计降低了部署门槛