CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection¶
会议: CVPR2026
arXiv: 2603.05042
代码: GitHub (作者声明已开源,链接待确认)
领域: autonomous_driving
关键词: 多相机3D目标检测, 跨配置泛化, 空间先验调制, 3D高斯数据增强, BEV感知
一句话总结¶
提出 CoIn3D 框架,通过空间感知特征调制(SFM)和相机感知数据增强(CDA)两个模块,显式建模相机内参/外参/阵列布局的空间先验差异,实现多相机3D检测模型从源配置到未见目标配置的强泛化迁移,适用于 BEVDepth / BEVFormer / PETR 三大主流范式。
背景与动机¶
- 多相机3D检测(MC3D)广泛部署:自动驾驶车辆和机器人平台越来越多地使用多相机环视方案进行3D目标检测,对模型的跨平台部署能力提出了迫切需求。
- 跨配置泛化困难:当前 MC3D 模型在训练配置上表现优异,但迁移到新平台(不同内参、外参、相机数量和布局)时性能急剧下降,例如 NuScenes→Waymo 的 BEVDepth 直接迁移 mAP 仅 0.040。
- 现有方案不完整:先前方法要么通过图像 warping 对齐到 meta-camera(分辨率损失、3D场景结构畸变),要么仅处理焦距差异(虚拟焦距+深度重缩放),未全面考虑外参和阵列布局。
- 焦距歧义问题:不同焦距下同一目标在像素空间的尺寸不同,导致深度估计和特征聚合的歧义,模型无法一致地理解目标距离。
- 地面几何先验随外参变化:不同安装高度和朝向的相机产生不同的地面深度分布和深度增长率,模型训练时会过拟合到特定的透视效果。
- 阵列布局差异影响多相机融合:不同平台的相机数量和重叠区域不同,直接影响多相机特征关联和融合的模式,现有方法未对此建模。
方法详解¶
整体框架¶
CoIn3D 包含两个核心模块:空间感知特征调制 (SFM) 和 相机感知数据增强 (CDA)。训练时,CDA 先通过 3DGS 渲染随机配置的新视角图像,再经 SFM 将空间先验嵌入特征;推理时仅用 SFM 即可泛化到新配置。框架可即插即用到 bottom-up BEV(BEVDepth)、top-down BEV(BEVFormer)、稀疏查询(PETR)三大范式。
空间感知特征调制 (SFM)¶
SFM 通过四种像素级空间先验表示显式编码相机配置:
- 逆焦距图 (Inverse Focal Map):用焦距平方的倒数 \(M_{IF} = \mathbf{1} \cdot \frac{1}{f^2}\) 乘以图像特征,消除焦距歧义。依据是焦距 \(k\) 倍差异导致目标像素面积 \(k^2\) 倍差异,通过归一化使不同焦距下的特征激活一致。
- 地面深度图 (Ground Depth Map):假设地面平面平坦,由至少3个非共线地面点拟合平面方程 \(Ax+By+Cz+D=0\),推导逐像素地面深度 \(z(u,v) = -\frac{D}{AX+BY+C}\),为模型提供显式的场景空间先验。
- 地面梯度图 (Ground Gradient Map):通过地面深度图的行间差分并施加 log-逆变换 \(M_{GG} = \log(\frac{1}{\Delta z} + 1)\) 得到,编码不同安装高度下的深度增长率差异,避免模型过拟合特定透视效果。
- Plücker 射线图 (Plücker Raymap):对每个像素计算从光心到该像素的射线方向 \(\mathbf{d} = \mathbf{R}\mathbf{K}^{-1}\mathbf{p}\) 和力矩 \(\mathbf{m} = \mathbf{t} \times \mathbf{d}\),得到6通道的 Plücker 坐标,整体表征 FoV、旋转、平移以及跨相机像素的连续空间位置。
融合流程:先用逆焦距图乘特征得到焦距不变特征 \(F^1\);再将 GD/GG/PR 拼接后通过浅层投影器编码为空间嵌入并加到 \(F^1\) 得到 \(F^2\);最后将四张原始先验图与 \(F^2\) 拼接得到最终空间感知特征 \(F^3\)。
相机感知数据增强 (CDA)¶
提出了一种 无需训练的自中心3DGS构建流水线,用于动态高效地生成多样配置的训练图像:
- 分解与重建:利用4D标注将 LiDAR 序列分解为前景物体和背景,分别用 TSDF 积分重建 mesh,物体 mesh 修补为封闭曲面。
- 深度渲染与补全:按每帧标注组合 mesh 并渲染深度图,再做深度补全填充无 mesh 区域。
- 纹理资产构建:从物体 mesh 和相机盲区采样点云,通过跨帧深度匹配检索纹理,补全不可见部分。
- 高斯表示:将 RGB-D 图投影为纹理点云,设各向同性高斯(固定半径、不旋转、不透明度为1),以点渲染方式利用 3DGS 的高速渲染(≈450 fps)。
训练时随机采样新相机配置渲染新视角图像;对原始图像则做随机焦距缩放增强。
损失函数¶
沿用各基础模型(BEVDepth / BEVFormer / PETR)的原有检测损失,SFM 和 CDA 作为即插即用模块不引入额外训练损失。
实验关键数据¶
主实验:基于 BEVDepth 的跨数据集泛化¶
| 设置 | 方法 | mAP↑ | mATE↓ | mAOE↓ | NDS*↑ |
|---|---|---|---|---|---|
| NuScenes→Waymo | Direct Transfer | 0.040 | 1.303 | 0.790 | 0.178 |
| NuScenes→Waymo | UDGA-BEV (前SOTA) | 0.349 | 0.754 | 0.250 | 0.459 |
| NuScenes→Waymo | CoIn3D (Ours) | 0.381 | 0.687 | 0.155 | 0.513 |
| NuScenes→Lyft | Direct Transfer | 0.112 | 0.997 | 0.389 | 0.296 |
| NuScenes→Lyft | UDGA-BEV | 0.324 | 0.709 | 0.180 | 0.487 |
| NuScenes→Lyft | CoIn3D (Ours) | 0.375 | 0.660 | 0.101 | 0.534 |
| Waymo→NuScenes | CoIn3D (Ours) | 0.349 | 0.727 | 0.179 | 0.481 |
| Lyft→NuScenes | CoIn3D (Ours) | 0.303 | 0.647 | 0.377 | 0.452 |
所有设置均取得 SOTA,NDS* 相比 UDGA-BEV 分别提升 +0.054 / +0.047 / +0.004 / +0.031。
跨范式泛化:BEVFormer 与 PETR¶
| 设置 | 方法 | mAP↑ | NDS*↑ |
|---|---|---|---|
| N→L (BEVFormer) | Direct Transfer | 0.149 | 0.115 |
| N→L (BEVFormer) | CoIn3D | 0.237 | 0.377 |
| N→L (PETR) | Direct Transfer | 0.013 | 0.046 |
| N→L (PETR) | CoIn3D | 0.332 | 0.456 |
CoIn3D 是首个统一适用于三大 MC3D 范式的跨配置泛化框架。
消融实验¶
模块消融 (NuScenes→Waymo):
| CDA | SFM | NDS*↑ |
|---|---|---|
| ✗ | ✗ | 0.178 |
| ✗ | ✓ | 0.358 |
| ✓ | ✗ | 0.224 |
| ✓ | ✓ | 0.513 |
- SFM 单独即有效(+0.180),CDA 单独增益有限(+0.046),二者结合产生强协同效果。
- BEVDepth 原有 Camera-Aware SE 模块与 SFM 冲突,去掉 CA 后反而更优(0.513 vs 0.504)。
SFM 空间先验消融:逆焦距图贡献最大(+0.238),地面深度/梯度/Plücker 逐步累加贡献 +0.036 / +0.008 / +0.007。
CDA 增强消融:焦距增强 +0.060,新视角合成增强额外 +0.095,说明 NVS 对多样化配置的增强效果远超简单焦距缩放。
亮点¶
- 全面剖析配置差异根因:系统性地将跨配置泛化问题分解为内参(焦距/FoV)、外参(安装位姿)、阵列布局三个维度,提出针对性的四种空间先验表示。
- 逆焦距归一化简洁有效:一个简单的 \(1/f^2\) 乘法操作即可将 NDS* 从 0.224 提升到 0.462,消融中贡献最大。
- 无需训练的 3DGS 数据增强:避免了传统 3DGS 的高训练成本,以点渲染方式利用预定义参数直接构建高斯表示,渲染速度 ≈450 fps,适合在线动态增强。
- 范式无关的统一框架:同一套 SFM+CDA 可即插即用到 BEVDepth / BEVFormer / PETR,不依赖特定的深度预测设计。
- 大幅缩小与 Oracle 的差距:NuScenes→Waymo 的 NDS* 从 0.178 提升到 0.513(Oracle 为 0.649),弥合了约 71% 的性能差距。
局限性 / 可改进方向¶
- 语义分布差异未解决:当前只处理配置差异,不同数据集的类别分布/场景分布差异仍影响跨域泛化,作者将此列为未来工作。
- 依赖 LiDAR 点云构建 3DGS:CDA 模块需要 LiDAR 数据来重建 mesh 和深度,限制了在纯视觉数据集上的应用。
- 地面平面假设:假设地面平坦以推导深度图和梯度图,在非平地场景(坡道、起伏路面)中可能失效。
- 单类评估为主:主实验主要在统一的 "car" 类上验证,多类别场景下的泛化效果有待进一步探索。
- CDA 的存储开销:每帧需要构建和存储自中心高斯点云,对大规模数据集的存储和预处理成本有一定要求。
与相关工作的对比¶
| 方法 | 焦距处理 | 外参处理 | 阵列布局 | 适用范式 | NDS* (N→W) |
|---|---|---|---|---|---|
| DG-BEV | 虚拟焦距 | ✗ | ✗ | Bottom-up BEV | 0.415 |
| PD-BEV | 虚拟焦距+深度重缩放 | ✗ | ✗ | Bottom-up BEV | — |
| UDGA-BEV | 虚拟焦距+深度/光度一致性 | ✗ | ✗ | Bottom-up BEV | 0.459 |
| UniPAD [47] | 图像 warping 到球面 | 球面对齐 | ✗ | Bottom-up BEV | — |
| CoIn3D (本文) | 逆焦距图 | 地面深度/梯度+Plücker | Plücker 连续编码 | 全范式 | 0.513 |
本文首次全面显式建模三种配置先验,且是唯一同时适用于三大 MC3D 范式的方案。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 四种空间先验的组合设计和无训练 3DGS 增强具有新意,逆焦距归一化简洁优雅
- 实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集×三个范式×四种设置,消融详尽,对比全面
- 写作质量: ⭐⭐⭐⭐ — 问题分析系统清晰,配图直观,公式推导完整
- 价值: ⭐⭐⭐⭐ — 解决了 MC3D 跨平台部署的实际痛点,工业应用潜力大