跳转至

Availability-aware Sensor Fusion via Unified Canonical Space

会议: NeurIPS 2025
arXiv: 2503.07029
代码: https://github.com/kaist-avelab/k-radar
领域: 自动驾驶 / 传感器融合
关键词: 多传感器融合, 传感器降级鲁棒性, 统一规范空间, 4D Radar, CASAP

一句话总结

提出 ASF(Availability-aware Sensor Fusion),通过统一规范投影(UCP)将 Camera/LiDAR/4D Radar 特征映射到共享空间 + 跨传感器沿 patch 交叉注意力(CASAP,复杂度 \(O(N_qN_s)\) 而非 \(O(N_qN_sN_p)\))自动适配可用传感器 + 传感器组合损失(SCL)覆盖所有 7 种组合,在 K-Radar 上 AP_3D 73.6%(超 SOTA 20.1%),传感器故障时性能仅降 1.7%。

研究背景与动机

  1. 领域现状:自动驾驶多传感器融合(Camera+LiDAR+Radar)已成主流。现有融合方法分两类——(a) 深度耦合融合(DCF):直接拼接各传感器特征,简单高效但假设所有传感器始终可用;(b) 传感器级交叉注意力融合(SCF):用 cross-attention 处理各传感器 patch,可以处理传感器缺失但计算量 \(O(N_qN_sN_p)\) 很大。
  2. 现有痛点:(a) DCF 在传感器故障时性能急剧下降,需为不同传感器组合训练不同模型;(b) SCF 没有统一特征表示,各传感器特征在隐空间中不一致,且计算量随 patch 数爆炸增长(如 CMT 需要 8 块 A100 训练)。
  3. 核心矛盾:不同传感器(2D RGB/3D 点云/4D Radar 张量)的特征表示天然不一致——对同一物体提取的特征分布差异大,直接融合效果差且不鲁棒。
  4. 本文要解决什么:设计一种方法使各传感器特征在统一空间中对齐,同时以极低计算量自动感知传感器可用性并适配。
  5. 切入角度:借鉴 Mobileye 的"True Redundancy"概念——传感器应独立工作但在规范表示上互补融合。
  6. 核心idea一句话:UCP 统一特征空间 + CASAP 仅跨传感器做注意力(不跨 patch) + SCL 训练时覆盖所有传感器组合,实现鲁棒且高效的可用性感知融合。

方法详解

整体框架

三阶段流水线:(1) 传感器特定编码器——BEVDepth(相机)、SECOND(LiDAR)、RTNH(4D Radar)提取相同空间尺寸的 BEV 特征图 \(\mathbf{FM}^s \in \mathbb{R}^{C_s \times H \times W}\);(2) ASF 网络——UCP 投影到统一空间 + CASAP 跨传感器注意力;(3) SSD 检测头——从融合特征图检测物体。

关键设计

  1. 统一规范投影(UCP):
  2. 做什么:将各传感器 BEV 特征投影到相同维度 \(C_u\) 的统一空间
  3. 核心思路:将每个传感器的 BEV FM 分成等数量的 patch \(\mathbf{F}_{p,i}^s \in \mathbb{R}^{C_s \times P_H \times P_W}\),然后通过传感器特定的 MLP+GeLU+LayerNorm 投影到 \(\mathbf{F}_{u,i}^s \in \mathbb{R}^{C_u}\)
  4. 关键:因为 patch 已经空间对齐(同位置的 C/L/R patch 对应同一区域),不需要位置编码,直接省掉了 SCF 中昂贵的位置嵌入
  5. 设计动机:t-SNE 可视化显示 UCP 后各传感器特征与融合特征对齐良好

  6. 跨传感器沿 Patch 交叉注意力(CASAP):

  7. 做什么:对每个 patch 位置,仅在 \(N_s\)(传感器数,最多 3)个 key/value 之间做交叉注意力
  8. 核心公式:\(\mathbf{Q}'_{ref,i} = \text{CrossAttn}(Q=\mathbf{Q}_{ref}, K\&V \in \{\mathbf{F}_{u,i}^{S_C}, \mathbf{F}_{u,i}^{S_L}, \mathbf{F}_{u,i}^{S_R}\})\)
  9. 复杂度:\(O(N_qN_s)\)\(N_s \leq 3\) 是常数级,远小于 SCF 的 \(O(N_qN_sN_p)\)
  10. 自动可用性感知:\(\mathbf{Q}_{ref}\) 在训练中学会对可用/可靠传感器给出更高注意力权重。恶劣天气下相机注意力自动降低,LiDAR/Radar 注意力升高
  11. 后归一化(PN):对 CASAP 输出再做 MLP+LN 投影,确保不同传感器组合的输出一致性

  12. 传感器组合损失(SCL):

  13. 做什么:训练时对所有 7 种传感器组合(C/L/R/CL/CR/LR/CLR)都计算检测损失
  14. 核心思路:\(\mathcal{L}_{SCL} = \sum_{s \in \mathcal{S}} (\mathcal{L}_{cls}^s + \mathcal{L}_{reg}^s)\),其中 \(\mathcal{S}\) 是所有可能的传感器子集
  15. 设计动机:暴露模型于各种传感器缺失场景,使其在任意子集可用时都能保持合理性能

训练策略

单 RTX 3090 GPU 即可训练(显存 1.5-1.6 GB),对比 CMT 需 8 块 A100。使用 AdamW 优化器,25 epochs。

实验关键数据

主实验

K-Radar 数据集 3D 物体检测(IoU=0.5):

方法 传感器 AP_BEV↑ AP_3D↑ 重雪 AP_3D↑
RTNH R only 36.0 14.1 6.36
RTNH L only 66.3 37.8 24.6
3D-LRF L+R 73.6 45.2 36.9
L4DR L+R 77.5 53.5 37.0
ASF L+R 87.0 72.9 66.7
ASF C+L+R 87.2 73.6 66.4

消融实验

配置 AP_3D (IoU=0.5)↑
ASF C+L+R(完整) 73.6
相机故障 C*+L+R 71.9(仅降 1.7%)
L+R 72.9
R only 40.0
L only 55.0
C only 15.2

关键发现

  • ASF 超越所有 SOTA 方法 20.1% AP_3D——这是一个巨大的改进幅度
  • 传感器冗余真正实现:C+L+R 和 L+R 性能几乎相同(73.6 vs 72.9),说明模型学会了在不需要时忽略相机
  • 恶劣天气下相机注意力自动降为 ~5%,LiDAR/Radar 分担——通过注意力权重可视化(SAM)直观验证
  • 计算极其高效:单 RTX 3090 可训练,推理 20.5 Hz,对比 DPFT 仅 5.0 Hz
  • 仅用 L+R 在大雪场景 AP_3D 达 66.7,远超 L4DR 的 37.0——因为 4D Radar 在恶劣天气的优势被充分利用

亮点与洞察

  • CASAP 的优雅简化:不跨 patch 做注意力这一设计决策极其关键——将复杂度从 \(O(N_qN_sN_p)\) 降到 \(O(N_qN_s)\),性能反而更好。因为同位置的 patch 已经空间对齐,不需要位置编码来建立对应。
  • SCL 训练策略的必要性:计算所有 7 种传感器组合的损失,使模型天然具备任意子集的鲁棒性——这比 dropout 传感器更彻底。
  • True Redundancy 的实现:t-SNE 可视化清晰展示了 UCP→CASAP→PN 的三阶段特征对齐过程,从分散到聚拢到统一。
  • 极低资源需求:单 RTX 3090 即可训练,是对 CMT(8×A100)的两个数量级的资源降低。

局限性 / 可改进方向

  • 仅在 K-Radar 数据集上验证,该数据集规模较小——需在 nuScenes 等大规模数据集上验证
  • 4D Radar 数据格式在不同传感器制造商间差异大,泛化性需验证
  • UCP 的对齐质量可能受初始化影响——可以探索对比学习等更强的对齐方法
  • 当前仅处理检测任务,语义分割等密集预测任务的适用性需探索

相关工作与启发

  • vs 3D-LRF / L4DR (DCF方法): 它们假设所有传感器可用,传感器故障时需重训。ASF 单一权重处理所有 7 种组合。
  • vs CMT / DPFT (SCF方法): 它们计算量大且需位置编码。ASF 通过空间对齐的 patch 免去位置编码,复杂度降低几个数量级。
  • True Redundancy 概念:来自 Mobileye 的工业论文,ASF 是第一个在学术方法中系统实现的。

评分

  • 新颖性: ⭐⭐⭐⭐ UCP+CASAP 的统一融合框架设计优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 全组合测试+恶劣天气+效率分析+可视化
  • 写作质量: ⭐⭐⭐⭐ 清晰,t-SNE 可视化很有说服力
  • 价值: ⭐⭐⭐⭐⭐ 对自动驾驶传感器鲁棒性有重要实用价值