CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection¶

会议: CVPR2026
arXiv: 2603.05042
代码: GitHub (作者声明已开源，链接待确认)
领域: autonomous_driving
关键词: 多相机3D目标检测, 跨配置泛化, 空间先验调制, 3D高斯数据增强, BEV感知

一句话总结¶

提出 CoIn3D 框架，通过空间感知特征调制（SFM）和相机感知数据增强（CDA）两个模块，显式建模相机内参/外参/阵列布局的空间先验差异，实现多相机3D检测模型从源配置到未见目标配置的强泛化迁移，适用于 BEVDepth / BEVFormer / PETR 三大主流范式。

背景与动机¶

多相机3D检测（MC3D）广泛部署：自动驾驶车辆和机器人平台越来越多地使用多相机环视方案进行3D目标检测，对模型的跨平台部署能力提出了迫切需求。
跨配置泛化困难：当前 MC3D 模型在训练配置上表现优异，但迁移到新平台（不同内参、外参、相机数量和布局）时性能急剧下降，例如 NuScenes→Waymo 的 BEVDepth 直接迁移 mAP 仅 0.040。
现有方案不完整：先前方法要么通过图像 warping 对齐到 meta-camera（分辨率损失、3D场景结构畸变），要么仅处理焦距差异（虚拟焦距+深度重缩放），未全面考虑外参和阵列布局。
焦距歧义问题：不同焦距下同一目标在像素空间的尺寸不同，导致深度估计和特征聚合的歧义，模型无法一致地理解目标距离。
地面几何先验随外参变化：不同安装高度和朝向的相机产生不同的地面深度分布和深度增长率，模型训练时会过拟合到特定的透视效果。
阵列布局差异影响多相机融合：不同平台的相机数量和重叠区域不同，直接影响多相机特征关联和融合的模式，现有方法未对此建模。

方法详解¶

整体框架¶

CoIn3D 包含两个核心模块：空间感知特征调制 (SFM) 和 相机感知数据增强 (CDA)。训练时，CDA 先通过 3DGS 渲染随机配置的新视角图像，再经 SFM 将空间先验嵌入特征；推理时仅用 SFM 即可泛化到新配置。框架可即插即用到 bottom-up BEV（BEVDepth）、top-down BEV（BEVFormer）、稀疏查询（PETR）三大范式。

空间感知特征调制 (SFM)¶

SFM 通过四种像素级空间先验表示显式编码相机配置：

逆焦距图 (Inverse Focal Map)：用焦距平方的倒数 \(M_{IF} = \mathbf{1} \cdot \frac{1}{f^2}\) 乘以图像特征，消除焦距歧义。依据是焦距 \(k\) 倍差异导致目标像素面积 \(k^2\) 倍差异，通过归一化使不同焦距下的特征激活一致。
地面深度图 (Ground Depth Map)：假设地面平面平坦，由至少3个非共线地面点拟合平面方程 \(Ax+By+Cz+D=0\)，推导逐像素地面深度 \(z(u,v) = -\frac{D}{AX+BY+C}\)，为模型提供显式的场景空间先验。
地面梯度图 (Ground Gradient Map)：通过地面深度图的行间差分并施加 log-逆变换 \(M_{GG} = \log(\frac{1}{\Delta z} + 1)\) 得到，编码不同安装高度下的深度增长率差异，避免模型过拟合特定透视效果。
Plücker 射线图 (Plücker Raymap)：对每个像素计算从光心到该像素的射线方向 \(\mathbf{d} = \mathbf{R}\mathbf{K}^{-1}\mathbf{p}\) 和力矩 \(\mathbf{m} = \mathbf{t} \times \mathbf{d}\)，得到6通道的 Plücker 坐标，整体表征 FoV、旋转、平移以及跨相机像素的连续空间位置。

融合流程：先用逆焦距图乘特征得到焦距不变特征 \(F^1\)；再将 GD/GG/PR 拼接后通过浅层投影器编码为空间嵌入并加到 \(F^1\) 得到 \(F^2\)；最后将四张原始先验图与 \(F^2\) 拼接得到最终空间感知特征 \(F^3\)。

相机感知数据增强 (CDA)¶

提出了一种 无需训练的自中心3DGS构建流水线，用于动态高效地生成多样配置的训练图像：

分解与重建：利用4D标注将 LiDAR 序列分解为前景物体和背景，分别用 TSDF 积分重建 mesh，物体 mesh 修补为封闭曲面。
深度渲染与补全：按每帧标注组合 mesh 并渲染深度图，再做深度补全填充无 mesh 区域。
纹理资产构建：从物体 mesh 和相机盲区采样点云，通过跨帧深度匹配检索纹理，补全不可见部分。
高斯表示：将 RGB-D 图投影为纹理点云，设各向同性高斯（固定半径、不旋转、不透明度为1），以点渲染方式利用 3DGS 的高速渲染（≈450 fps）。

训练时随机采样新相机配置渲染新视角图像；对原始图像则做随机焦距缩放增强。

损失函数¶

沿用各基础模型（BEVDepth / BEVFormer / PETR）的原有检测损失，SFM 和 CDA 作为即插即用模块不引入额外训练损失。

实验关键数据¶

主实验：基于 BEVDepth 的跨数据集泛化¶

设置	方法	mAP↑	mATE↓	mAOE↓	NDS*↑
NuScenes→Waymo	Direct Transfer	0.040	1.303	0.790	0.178
NuScenes→Waymo	UDGA-BEV (前SOTA)	0.349	0.754	0.250	0.459
NuScenes→Waymo	CoIn3D (Ours)	0.381	0.687	0.155	0.513
NuScenes→Lyft	Direct Transfer	0.112	0.997	0.389	0.296
NuScenes→Lyft	UDGA-BEV	0.324	0.709	0.180	0.487
NuScenes→Lyft	CoIn3D (Ours)	0.375	0.660	0.101	0.534
Waymo→NuScenes	CoIn3D (Ours)	0.349	0.727	0.179	0.481
Lyft→NuScenes	CoIn3D (Ours)	0.303	0.647	0.377	0.452

所有设置均取得 SOTA，NDS* 相比 UDGA-BEV 分别提升 +0.054 / +0.047 / +0.004 / +0.031。

跨范式泛化：BEVFormer 与 PETR¶

设置	方法	mAP↑	NDS*↑
N→L (BEVFormer)	Direct Transfer	0.149	0.115
N→L (BEVFormer)	CoIn3D	0.237	0.377
N→L (PETR)	Direct Transfer	0.013	0.046
N→L (PETR)	CoIn3D	0.332	0.456

CoIn3D 是首个统一适用于三大 MC3D 范式的跨配置泛化框架。

消融实验¶

模块消融 (NuScenes→Waymo)：

CDA	SFM	NDS*↑
✗	✗	0.178
✗	✓	0.358
✓	✗	0.224
✓	✓	0.513

SFM 单独即有效（+0.180），CDA 单独增益有限（+0.046），二者结合产生强协同效果。
BEVDepth 原有 Camera-Aware SE 模块与 SFM 冲突，去掉 CA 后反而更优（0.513 vs 0.504）。

SFM 空间先验消融：逆焦距图贡献最大（+0.238），地面深度/梯度/Plücker 逐步累加贡献 +0.036 / +0.008 / +0.007。

CDA 增强消融：焦距增强 +0.060，新视角合成增强额外 +0.095，说明 NVS 对多样化配置的增强效果远超简单焦距缩放。

亮点¶

全面剖析配置差异根因：系统性地将跨配置泛化问题分解为内参（焦距/FoV）、外参（安装位姿）、阵列布局三个维度，提出针对性的四种空间先验表示。
逆焦距归一化简洁有效：一个简单的 \(1/f^2\) 乘法操作即可将 NDS* 从 0.224 提升到 0.462，消融中贡献最大。
无需训练的 3DGS 数据增强：避免了传统 3DGS 的高训练成本，以点渲染方式利用预定义参数直接构建高斯表示，渲染速度 ≈450 fps，适合在线动态增强。
范式无关的统一框架：同一套 SFM+CDA 可即插即用到 BEVDepth / BEVFormer / PETR，不依赖特定的深度预测设计。
大幅缩小与 Oracle 的差距：NuScenes→Waymo 的 NDS* 从 0.178 提升到 0.513（Oracle 为 0.649），弥合了约 71% 的性能差距。

局限性 / 可改进方向¶

语义分布差异未解决：当前只处理配置差异，不同数据集的类别分布/场景分布差异仍影响跨域泛化，作者将此列为未来工作。
依赖 LiDAR 点云构建 3DGS：CDA 模块需要 LiDAR 数据来重建 mesh 和深度，限制了在纯视觉数据集上的应用。
地面平面假设：假设地面平坦以推导深度图和梯度图，在非平地场景（坡道、起伏路面）中可能失效。
单类评估为主：主实验主要在统一的 "car" 类上验证，多类别场景下的泛化效果有待进一步探索。
CDA 的存储开销：每帧需要构建和存储自中心高斯点云，对大规模数据集的存储和预处理成本有一定要求。

与相关工作的对比¶

方法	焦距处理	外参处理	阵列布局	适用范式	NDS* (N→W)
DG-BEV	虚拟焦距	✗	✗	Bottom-up BEV	0.415
PD-BEV	虚拟焦距+深度重缩放	✗	✗	Bottom-up BEV	—
UDGA-BEV	虚拟焦距+深度/光度一致性	✗	✗	Bottom-up BEV	0.459
UniPAD [47]	图像 warping 到球面	球面对齐	✗	Bottom-up BEV	—
CoIn3D (本文)	逆焦距图	地面深度/梯度+Plücker	Plücker 连续编码	全范式	0.513

本文首次全面显式建模三种配置先验，且是唯一同时适用于三大 MC3D 范式的方案。

评分¶

新颖性: ⭐⭐⭐⭐ — 四种空间先验的组合设计和无训练 3DGS 增强具有新意，逆焦距归一化简洁优雅
实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集×三个范式×四种设置，消融详尽，对比全面
写作质量: ⭐⭐⭐⭐ — 问题分析系统清晰，配图直观，公式推导完整
价值: ⭐⭐⭐⭐ — 解决了 MC3D 跨平台部署的实际痛点，工业应用潜力大