Availability-aware Sensor Fusion via Unified Canonical Space¶
会议: NeurIPS 2025
arXiv: 2503.07029
代码: https://github.com/kaist-avelab/k-radar
领域: 自动驾驶 / 传感器融合
关键词: 多传感器融合, 传感器降级鲁棒性, 统一规范空间, 4D Radar, CASAP
一句话总结¶
提出 ASF(Availability-aware Sensor Fusion),通过统一规范投影(UCP)将 Camera/LiDAR/4D Radar 特征映射到共享空间 + 跨传感器沿 patch 交叉注意力(CASAP,复杂度 \(O(N_qN_s)\) 而非 \(O(N_qN_sN_p)\))自动适配可用传感器 + 传感器组合损失(SCL)覆盖所有 7 种组合,在 K-Radar 上 AP_3D 73.6%(超 SOTA 20.1%),传感器故障时性能仅降 1.7%。
研究背景与动机¶
- 领域现状:自动驾驶多传感器融合(Camera+LiDAR+Radar)已成主流。现有融合方法分两类——(a) 深度耦合融合(DCF):直接拼接各传感器特征,简单高效但假设所有传感器始终可用;(b) 传感器级交叉注意力融合(SCF):用 cross-attention 处理各传感器 patch,可以处理传感器缺失但计算量 \(O(N_qN_sN_p)\) 很大。
- 现有痛点:(a) DCF 在传感器故障时性能急剧下降,需为不同传感器组合训练不同模型;(b) SCF 没有统一特征表示,各传感器特征在隐空间中不一致,且计算量随 patch 数爆炸增长(如 CMT 需要 8 块 A100 训练)。
- 核心矛盾:不同传感器(2D RGB/3D 点云/4D Radar 张量)的特征表示天然不一致——对同一物体提取的特征分布差异大,直接融合效果差且不鲁棒。
- 本文要解决什么:设计一种方法使各传感器特征在统一空间中对齐,同时以极低计算量自动感知传感器可用性并适配。
- 切入角度:借鉴 Mobileye 的"True Redundancy"概念——传感器应独立工作但在规范表示上互补融合。
- 核心idea一句话:UCP 统一特征空间 + CASAP 仅跨传感器做注意力(不跨 patch) + SCL 训练时覆盖所有传感器组合,实现鲁棒且高效的可用性感知融合。
方法详解¶
整体框架¶
三阶段流水线:(1) 传感器特定编码器——BEVDepth(相机)、SECOND(LiDAR)、RTNH(4D Radar)提取相同空间尺寸的 BEV 特征图 \(\mathbf{FM}^s \in \mathbb{R}^{C_s \times H \times W}\);(2) ASF 网络——UCP 投影到统一空间 + CASAP 跨传感器注意力;(3) SSD 检测头——从融合特征图检测物体。
关键设计¶
- 统一规范投影(UCP):
- 做什么:将各传感器 BEV 特征投影到相同维度 \(C_u\) 的统一空间
- 核心思路:将每个传感器的 BEV FM 分成等数量的 patch \(\mathbf{F}_{p,i}^s \in \mathbb{R}^{C_s \times P_H \times P_W}\),然后通过传感器特定的 MLP+GeLU+LayerNorm 投影到 \(\mathbf{F}_{u,i}^s \in \mathbb{R}^{C_u}\)
- 关键:因为 patch 已经空间对齐(同位置的 C/L/R patch 对应同一区域),不需要位置编码,直接省掉了 SCF 中昂贵的位置嵌入
-
设计动机:t-SNE 可视化显示 UCP 后各传感器特征与融合特征对齐良好
-
跨传感器沿 Patch 交叉注意力(CASAP):
- 做什么:对每个 patch 位置,仅在 \(N_s\)(传感器数,最多 3)个 key/value 之间做交叉注意力
- 核心公式:\(\mathbf{Q}'_{ref,i} = \text{CrossAttn}(Q=\mathbf{Q}_{ref}, K\&V \in \{\mathbf{F}_{u,i}^{S_C}, \mathbf{F}_{u,i}^{S_L}, \mathbf{F}_{u,i}^{S_R}\})\)
- 复杂度:\(O(N_qN_s)\),\(N_s \leq 3\) 是常数级,远小于 SCF 的 \(O(N_qN_sN_p)\)
- 自动可用性感知:\(\mathbf{Q}_{ref}\) 在训练中学会对可用/可靠传感器给出更高注意力权重。恶劣天气下相机注意力自动降低,LiDAR/Radar 注意力升高
-
后归一化(PN):对 CASAP 输出再做 MLP+LN 投影,确保不同传感器组合的输出一致性
-
传感器组合损失(SCL):
- 做什么:训练时对所有 7 种传感器组合(C/L/R/CL/CR/LR/CLR)都计算检测损失
- 核心思路:\(\mathcal{L}_{SCL} = \sum_{s \in \mathcal{S}} (\mathcal{L}_{cls}^s + \mathcal{L}_{reg}^s)\),其中 \(\mathcal{S}\) 是所有可能的传感器子集
- 设计动机:暴露模型于各种传感器缺失场景,使其在任意子集可用时都能保持合理性能
训练策略¶
单 RTX 3090 GPU 即可训练(显存 1.5-1.6 GB),对比 CMT 需 8 块 A100。使用 AdamW 优化器,25 epochs。
实验关键数据¶
主实验¶
K-Radar 数据集 3D 物体检测(IoU=0.5):
| 方法 | 传感器 | AP_BEV↑ | AP_3D↑ | 重雪 AP_3D↑ |
|---|---|---|---|---|
| RTNH | R only | 36.0 | 14.1 | 6.36 |
| RTNH | L only | 66.3 | 37.8 | 24.6 |
| 3D-LRF | L+R | 73.6 | 45.2 | 36.9 |
| L4DR | L+R | 77.5 | 53.5 | 37.0 |
| ASF | L+R | 87.0 | 72.9 | 66.7 |
| ASF | C+L+R | 87.2 | 73.6 | 66.4 |
消融实验¶
| 配置 | AP_3D (IoU=0.5)↑ |
|---|---|
| ASF C+L+R(完整) | 73.6 |
| 相机故障 C*+L+R | 71.9(仅降 1.7%) |
| L+R | 72.9 |
| R only | 40.0 |
| L only | 55.0 |
| C only | 15.2 |
关键发现¶
- ASF 超越所有 SOTA 方法 20.1% AP_3D——这是一个巨大的改进幅度
- 传感器冗余真正实现:C+L+R 和 L+R 性能几乎相同(73.6 vs 72.9),说明模型学会了在不需要时忽略相机
- 恶劣天气下相机注意力自动降为 ~5%,LiDAR/Radar 分担——通过注意力权重可视化(SAM)直观验证
- 计算极其高效:单 RTX 3090 可训练,推理 20.5 Hz,对比 DPFT 仅 5.0 Hz
- 仅用 L+R 在大雪场景 AP_3D 达 66.7,远超 L4DR 的 37.0——因为 4D Radar 在恶劣天气的优势被充分利用
亮点与洞察¶
- CASAP 的优雅简化:不跨 patch 做注意力这一设计决策极其关键——将复杂度从 \(O(N_qN_sN_p)\) 降到 \(O(N_qN_s)\),性能反而更好。因为同位置的 patch 已经空间对齐,不需要位置编码来建立对应。
- SCL 训练策略的必要性:计算所有 7 种传感器组合的损失,使模型天然具备任意子集的鲁棒性——这比 dropout 传感器更彻底。
- True Redundancy 的实现:t-SNE 可视化清晰展示了 UCP→CASAP→PN 的三阶段特征对齐过程,从分散到聚拢到统一。
- 极低资源需求:单 RTX 3090 即可训练,是对 CMT(8×A100)的两个数量级的资源降低。
局限性 / 可改进方向¶
- 仅在 K-Radar 数据集上验证,该数据集规模较小——需在 nuScenes 等大规模数据集上验证
- 4D Radar 数据格式在不同传感器制造商间差异大,泛化性需验证
- UCP 的对齐质量可能受初始化影响——可以探索对比学习等更强的对齐方法
- 当前仅处理检测任务,语义分割等密集预测任务的适用性需探索
相关工作与启发¶
- vs 3D-LRF / L4DR (DCF方法): 它们假设所有传感器可用,传感器故障时需重训。ASF 单一权重处理所有 7 种组合。
- vs CMT / DPFT (SCF方法): 它们计算量大且需位置编码。ASF 通过空间对齐的 patch 免去位置编码,复杂度降低几个数量级。
- True Redundancy 概念:来自 Mobileye 的工业论文,ASF 是第一个在学术方法中系统实现的。
评分¶
- 新颖性: ⭐⭐⭐⭐ UCP+CASAP 的统一融合框架设计优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 全组合测试+恶劣天气+效率分析+可视化
- 写作质量: ⭐⭐⭐⭐ 清晰,t-SNE 可视化很有说服力
- 价值: ⭐⭐⭐⭐⭐ 对自动驾驶传感器鲁棒性有重要实用价值