RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration Network¶
会议: CVPR 2025
arXiv: 2505.22427
代码: https://github.com/nycu-acm/RC-AutoCalib
领域: 自动驾驶 / 传感器标定
关键词: 雷达-相机标定, 在线自标定, 双视角表示, 特征匹配, 噪声抗性
一句话总结¶
提出 RC-AutoCalib,首个针对 3D 雷达和相机的端到端在线自动几何标定方法,通过双视角(前视+鸟瞰)特征表示、选择性融合机制和噪声抗性匹配器,有效解决雷达数据稀疏和高度不确定性问题,在 nuScenes 数据集上大幅超越现有 LiDAR-相机标定方法。
研究背景与动机¶
领域现状:雷达和相机因成本低廉和全天候工作能力,在 ADAS 系统中越来越受欢迎。传感器间的精确标定是多模态融合的基础。现有标定方法主要分为离线标定(需要棋盘格等标定物,耗时费力且不能应对运行中的传感器偏移)和在线标定(利用自然场景特征,更灵活适应动态变化)。
现有痛点:(1) 雷达-相机在线自标定几乎没有被探索过,仅有 Schöller 等人用深度学习做旋转标定、未涉及平移标定;(2) 虽然 LiDAR-相机在线标定(如 LCCNet, CalibDepth)已有成熟方案,但雷达数据有两个独特难题:稀疏性(点数远少于 LiDAR)和 高度不确定性(雷达在高度维度测量精度极差,导致投影到前视图时深度值包含大量噪声);(3) 现有方法主要从单一前视图视角提取特征,而雷达投影到前视图后点更稀疏且充满噪声。
核心矛盾:雷达数据的稀疏性和高度不确定性使得传统 LiDAR-相机标定方案直接用于雷达-相机标定效果很差。
本文目标:设计一个能有效处理稀疏和噪声雷达数据的端到端在线自标定网络,同时估计 6-DoF 的旋转和平移参数。
切入角度:鸟瞰图(BEV)不受高度不确定性影响(因为 BEV 只用 X 和 Z 坐标),可以提供对高度噪声鲁棒的特征。因此用双视角互补——前视图保留丰富语义但受噪声影响,BEV 提供稳定几何但损失语义。
核心 idea:双视角表示 + 基于注意力的选择性融合 + 显式特征匹配监督(通过噪声抗性匹配器提供更干净的匹配 GT)。
方法详解¶
整体框架¶
输入为 RGB 图像和雷达点云以及初始标定参数 \(T_{init}\)。数据变换模块将它们转换为四种表示:前视图深度图(相机估计 + 雷达投影)和 BEV 图(伪 BEV 图像 + 雷达 BEV 投影)。经特征提取(ResNet)后进入特征匹配模块(含多模态交叉注意力和显式匹配监督),再通过选择性融合机制合并双视角特征,最后由回归头(LSTM 序列解码器)预测旋转和平移向量。支持迭代精化:预测的 \(T_{pred}^i\) 更新 \(T_{init}\) 后重新输入网络。
关键设计¶
-
双视角(Dual-Perspective)特征表示:
- 功能:从前视图和鸟瞰图两个互补视角提取雷达和相机特征
- 核心思路:雷达数据:用初始标定参数将雷达 3D 点 \(P_r\) 变换到相机坐标系,分别投影到前视图(记录深度 \(Z_r^c\))和 BEV(记录高度 \(Y_r^c\))。相机数据:用 DepthAnything+ZoeDepth 从 RGB 图估计度量深度作为前视图特征;将深度图反投影为伪点云再投影到 BEV 生成伪 BEV 图像。最终得到四对特征图:\(I_R^{FV}, I_I^{FV}\)(前视图)和 \(I_R^{BEV}, I_I^{BEV}\)(BEV)
- 设计动机:BEV 视角中雷达数据不受高度不确定性影响(只用 X, Z 坐标),提供更稳定的几何特征;前视图保留丰富的语义和结构信息但受高度噪声污染。两者互补
-
多模态交叉注意力 + 显式特征匹配监督:
- 功能:在每个视角内显式建立雷达和相机特征之间的对应关系
- 核心思路:交叉注意力(MCA)让雷达和相机特征互相关注,计算注意力分数 \(a_{IR} = K_I^\top K_R\),得到 attended 特征 \(m_{I\leftarrow R}\) 和 \(m_{R\leftarrow I}\)。在此基础上用 Residual Conv Block 聚合为统一特征 \(F_{view}\)。训练时额外设置匹配分支:通过 softmax 归一化的相似度矩阵 \(S\) 和可匹配性分数 \(\sigma_*\) 计算赋值矩阵 \(P\),与 GT 匹配矩阵 \(\mathcal{M}\) 做匹配损失监督
- 设计动机:之前方法只用拼接+卷积做隐式匹配,仅靠最终标定损失间接监督,无法明确学到对应点对。显式匹配监督让网络真正理解雷达和图像之间的几何对应
-
噪声抗性匹配器(Noise-Resistant Matcher):
- 功能:在前视图匹配中过滤因高度不确定性导致的不可靠雷达点,提供更干净的匹配 GT
- 核心思路:利用 LiDAR 数据(仅训练时使用)识别不可靠雷达点。对每个雷达 3D 点构建自适应 3D 包围盒 \(B\)(高度 \(h_B\)、宽度 \(w_B\)、深度 \(d_B\) 根据雷达的仰角 \(\phi\)、方位角 \(\theta\)、距离 \(R\) 和允许误差 \(\delta\) 自适应计算),若盒内 LiDAR 点数超过阈值 \(\tau\) 则认为该雷达点可靠,否则从匹配 GT \(\mathcal{M}\) 中剔除
- 设计动机:由于雷达高度测量精度差,远离雷达平面的反射信号会产生不可靠的 3D 位置。直接用这些噪声点作为匹配 GT 会误导网络学习
损失函数 / 训练策略¶
总损失 \(L_{total} = L_{calib} + \beta L_{matching}\)。匹配损失 \(L_{matching} = L_{M_{bev}} + L_{M_{fv}}\),每个视角的匹配损失包括正例损失(匹配对的 log 似然)和负例损失(非匹配点的 no-matchable 分数)。标定损失 \(L_{calib}\) 采用 CalibDepth 的迭代标定损失。使用 nuScenes 数据集,12610 样本训练、1628 验证、1623 测试,深度范围 0-200m,输入分辨率 400×192。回归头用 LSTM 序列解码器进行多步自回归预测。
实验关键数据¶
主实验¶
误标定范围 R1 (±10°, ±0.25m):
| 方法 | 旋转误差(°) Mean | Roll | Pitch | Yaw | 平移误差(cm) Mean | X | Y | Z |
|---|---|---|---|---|---|---|---|---|
| LCCNet-1 | 1.603 | 0.123 | 3.130 | 1.556 | 16.531 | 22.99 | 17.65 | 8.95 |
| CalibDepth | 0.807 | 0.390 | 0.345 | 1.686 | 12.608 | 12.86 | 12.25 | 12.72 |
| Ours | 0.427 | 0.130 | 0.198 | 0.953 | 9.498 | 12.56 | 3.30 | 12.64 |
误标定范围 R2 (±20°, ±1.5m):
| 方法 | 旋转误差(°) Mean | 平移误差(cm) Mean |
|---|---|---|
| CalibDepth | 1.686 | 55.380 |
| Ours | 0.852 | 47.537 |
消融实验¶
| FV | BEV | SF | MCA | EMS | NR | Rot Mean(°) | Trans Mean(cm) |
|---|---|---|---|---|---|---|---|
| ✓ | 0.657 | 12.602 | |||||
| ✓ | 0.689 | 12.605 | |||||
| ✓ | ✓ | 0.575 | 12.315 | ||||
| ✓ | ✓ | ✓ | 0.529 | 11.842 | |||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 0.427 | 9.498 |
关键发现¶
- 双视角组合(FV+BEV)比单一视角分别降低旋转误差 12.5% 和 16.5%
- 选择性融合(SF)在双视角基础上进一步降低旋转误差 8%,说明自适应选择比简单合并更有效
- 显式匹配监督(EMS)对平移标定贡献最大,Y 方向平移误差从 9.98cm 降至 3.30cm
- 噪声抗性匹配器(NR)有效过滤了前视图中的噪声匹配对,进一步提升精度
- 在大误标定范围(R2)下优势更明显,旋转误差仅 0.852°,远低于 CalibDepth 的 1.686°
亮点与洞察¶
- 首个雷达-相机在线自标定的完整方案:不仅做了旋转还做了平移标定,填补了领域空白,并且超越了 LiDAR-相机方法(这意味着用更便宜的雷达也能获得精度可比甚至更好的标定)
- BEV 视角规避高度不确定性的洞察:非常聪明地利用了雷达在 X-Z 平面上精度高但 Y 轴精度差的特性,BEV 视角完全避开了问题维度
- 自适应 3D 包围盒的设计:根据每个雷达点的角度和距离动态调整包围盒大小来判断可靠性,比简单阈值更物理合理
- 训练时用 LiDAR 辅助、推理时不需要 LiDAR:巧妙地利用了 nuScenes 同时有 LiDAR 的优势来生成更干净的训练数据
局限与展望¶
- 训练时依赖 LiDAR 数据来构建噪声抗性匹配器的 GT,限制了在纯雷达-相机系统上的训练可能
- 使用 DepthAnything+ZoeDepth 做深度估计是固定的预处理步骤,估计误差会传播到后续模块
- 迭代精化的次数需要手动设定,自适应终止策略是一个有趣方向
- 目前只在 nuScenes 数据集上验证,在更多驾驶数据集(如 Waymo、ONCE)和极端天气条件下的鲁棒性有待验证
相关工作与启发¶
- vs CalibDepth (LiDAR-Camera): 当前 SOTA LiDAR-相机方法,RC-AutoCalib 在用雷达替代 LiDAR 的情况下取得了更好的旋转精度和可比的平移精度
- vs LCCNet: 早期 LiDAR-相机方法,使用 cost volume 做特征匹配但缺乏显式匹配监督,在雷达场景下效果较差
- vs Schöller et al.: 唯一的前人雷达-相机深度学习标定工作,但仅处理旋转且使用的是固定交通雷达而非车载雷达
- 双视角思路可迁移到其他涉及稀疏 3D 数据和 2D 图像对齐的场景(如 ToF 相机标定)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个完整的雷达-相机在线自标定方案,双视角+噪声抗性匹配器设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 消融充分,但仅一个数据集
- 写作质量: ⭐⭐⭐⭐ 问题分析透彻,方法描述详细
- 价值: ⭐⭐⭐⭐ 对自动驾驶雷达-相机融合系统有直接实用价值
相关论文¶
- [CVPR 2025] DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
- [CVPR 2025] SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving
- [CVPR 2025] TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-Stage Fusion
- [CVPR 2025] RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion
- [ICCV 2025] World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model