Availability-aware Sensor Fusion via Unified Canonical Space¶

会议: NeurIPS 2025
arXiv: 2503.07029
代码: https://github.com/kaist-avelab/k-radar
领域: 自动驾驶 / 传感器融合
关键词: 多传感器融合, 传感器降级鲁棒性, 统一规范空间, 4D Radar, CASAP

一句话总结¶

提出 ASF（Availability-aware Sensor Fusion），通过统一规范投影（UCP）将 Camera/LiDAR/4D Radar 特征映射到共享空间 + 跨传感器沿 patch 交叉注意力（CASAP，复杂度 \(O(N_qN_s)\) 而非 \(O(N_qN_sN_p)\)）自动适配可用传感器 + 传感器组合损失（SCL）覆盖所有 7 种组合，在 K-Radar 上 AP_3D 73.6%（超 SOTA 20.1%），传感器故障时性能仅降 1.7%。

研究背景与动机¶

领域现状：自动驾驶多传感器融合（Camera+LiDAR+Radar）已成主流。现有融合方法分两类——(a) 深度耦合融合（DCF）：直接拼接各传感器特征，简单高效但假设所有传感器始终可用；(b) 传感器级交叉注意力融合（SCF）：用 cross-attention 处理各传感器 patch，可以处理传感器缺失但计算量 \(O(N_qN_sN_p)\) 很大。
现有痛点：(a) DCF 在传感器故障时性能急剧下降，需为不同传感器组合训练不同模型；(b) SCF 没有统一特征表示，各传感器特征在隐空间中不一致，且计算量随 patch 数爆炸增长（如 CMT 需要 8 块 A100 训练）。
核心矛盾：不同传感器（2D RGB/3D 点云/4D Radar 张量）的特征表示天然不一致——对同一物体提取的特征分布差异大，直接融合效果差且不鲁棒。
本文要解决什么：设计一种方法使各传感器特征在统一空间中对齐，同时以极低计算量自动感知传感器可用性并适配。
切入角度：借鉴 Mobileye 的"True Redundancy"概念——传感器应独立工作但在规范表示上互补融合。
核心idea一句话：UCP 统一特征空间 + CASAP 仅跨传感器做注意力（不跨 patch） + SCL 训练时覆盖所有传感器组合，实现鲁棒且高效的可用性感知融合。

方法详解¶

整体框架¶

三阶段流水线：(1) 传感器特定编码器——BEVDepth（相机）、SECOND（LiDAR）、RTNH（4D Radar）提取相同空间尺寸的 BEV 特征图 \(\mathbf{FM}^s \in \mathbb{R}^{C_s \times H \times W}\)；(2) ASF 网络——UCP 投影到统一空间 + CASAP 跨传感器注意力；(3) SSD 检测头——从融合特征图检测物体。

关键设计¶

统一规范投影（UCP）:
做什么：将各传感器 BEV 特征投影到相同维度 \(C_u\) 的统一空间
核心思路：将每个传感器的 BEV FM 分成等数量的 patch \(\mathbf{F}_{p,i}^s \in \mathbb{R}^{C_s \times P_H \times P_W}\)，然后通过传感器特定的 MLP+GeLU+LayerNorm 投影到 \(\mathbf{F}_{u,i}^s \in \mathbb{R}^{C_u}\)
关键：因为 patch 已经空间对齐（同位置的 C/L/R patch 对应同一区域），不需要位置编码，直接省掉了 SCF 中昂贵的位置嵌入
设计动机：t-SNE 可视化显示 UCP 后各传感器特征与融合特征对齐良好
跨传感器沿 Patch 交叉注意力（CASAP）:
做什么：对每个 patch 位置，仅在 \(N_s\)（传感器数，最多 3）个 key/value 之间做交叉注意力
核心公式：\(\mathbf{Q}'_{ref,i} = \text{CrossAttn}(Q=\mathbf{Q}_{ref}, K\&V \in \{\mathbf{F}_{u,i}^{S_C}, \mathbf{F}_{u,i}^{S_L}, \mathbf{F}_{u,i}^{S_R}\})\)
复杂度：\(O(N_qN_s)\)，\(N_s \leq 3\) 是常数级，远小于 SCF 的 \(O(N_qN_sN_p)\)
自动可用性感知：\(\mathbf{Q}_{ref}\) 在训练中学会对可用/可靠传感器给出更高注意力权重。恶劣天气下相机注意力自动降低，LiDAR/Radar 注意力升高
后归一化（PN）：对 CASAP 输出再做 MLP+LN 投影，确保不同传感器组合的输出一致性
传感器组合损失（SCL）:
做什么：训练时对所有 7 种传感器组合（C/L/R/CL/CR/LR/CLR）都计算检测损失
核心思路：\(\mathcal{L}_{SCL} = \sum_{s \in \mathcal{S}} (\mathcal{L}_{cls}^s + \mathcal{L}_{reg}^s)\)，其中 \(\mathcal{S}\) 是所有可能的传感器子集
设计动机：暴露模型于各种传感器缺失场景，使其在任意子集可用时都能保持合理性能

训练策略¶

单 RTX 3090 GPU 即可训练（显存 1.5-1.6 GB），对比 CMT 需 8 块 A100。使用 AdamW 优化器，25 epochs。

实验关键数据¶

主实验¶

K-Radar 数据集 3D 物体检测（IoU=0.5）：

方法	传感器	AP_BEV↑	AP_3D↑	重雪 AP_3D↑
RTNH	R only	36.0	14.1	6.36
RTNH	L only	66.3	37.8	24.6
3D-LRF	L+R	73.6	45.2	36.9
L4DR	L+R	77.5	53.5	37.0
ASF	L+R	87.0	72.9	66.7
ASF	C+L+R	87.2	73.6	66.4

消融实验¶

配置	AP_3D (IoU=0.5)↑
ASF C+L+R（完整）	73.6
相机故障 C*+L+R	71.9（仅降 1.7%）
L+R	72.9
R only	40.0
L only	55.0
C only	15.2

关键发现¶

ASF 超越所有 SOTA 方法 20.1% AP_3D——这是一个巨大的改进幅度
传感器冗余真正实现：C+L+R 和 L+R 性能几乎相同（73.6 vs 72.9），说明模型学会了在不需要时忽略相机
恶劣天气下相机注意力自动降为 ~5%，LiDAR/Radar 分担——通过注意力权重可视化（SAM）直观验证
计算极其高效：单 RTX 3090 可训练，推理 20.5 Hz，对比 DPFT 仅 5.0 Hz
仅用 L+R 在大雪场景 AP_3D 达 66.7，远超 L4DR 的 37.0——因为 4D Radar 在恶劣天气的优势被充分利用

亮点与洞察¶

CASAP 的优雅简化：不跨 patch 做注意力这一设计决策极其关键——将复杂度从 \(O(N_qN_sN_p)\) 降到 \(O(N_qN_s)\)，性能反而更好。因为同位置的 patch 已经空间对齐，不需要位置编码来建立对应。
SCL 训练策略的必要性：计算所有 7 种传感器组合的损失，使模型天然具备任意子集的鲁棒性——这比 dropout 传感器更彻底。
True Redundancy 的实现：t-SNE 可视化清晰展示了 UCP→CASAP→PN 的三阶段特征对齐过程，从分散到聚拢到统一。
极低资源需求：单 RTX 3090 即可训练，是对 CMT（8×A100）的两个数量级的资源降低。

局限性 / 可改进方向¶

仅在 K-Radar 数据集上验证，该数据集规模较小——需在 nuScenes 等大规模数据集上验证
4D Radar 数据格式在不同传感器制造商间差异大，泛化性需验证
UCP 的对齐质量可能受初始化影响——可以探索对比学习等更强的对齐方法
当前仅处理检测任务，语义分割等密集预测任务的适用性需探索

评分¶

新颖性: ⭐⭐⭐⭐ UCP+CASAP 的统一融合框架设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 全组合测试+恶劣天气+效率分析+可视化
写作质量: ⭐⭐⭐⭐ 清晰，t-SNE 可视化很有说服力
价值: ⭐⭐⭐⭐⭐ 对自动驾驶传感器鲁棒性有重要实用价值