SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection¶

会议: CVPR2026 arXiv: 2511.06702 代码: 项目主页领域: 3D视觉 关键词: 单目3D检测, 几何一致性, 空间对齐, 投影约束, 即插即用

一句话总结¶

提出 Spatial-Projection Alignment (SPAN)，通过3D角点空间对齐和3D-2D投影对齐两个几何协同约束，配合分层任务学习策略，作为即插即用模块提升任意单目3D检测器的定位精度。

单目3D检测的核心挑战：从单张RGB图像推断完整的3D空间信息是病态问题，缺乏直接的深度线索，但成本低、部署灵活，是自动驾驶和机器人感知的重要方向。
解耦回归范式的局限：现有方法将3D框的7个自由度参数（中心坐标、深度、尺寸、旋转角）拆分到不同分支独立预测，虽然简化了学习目标，但忽略了属性间的几何协同约束。
几何一致性缺失：独立预测各属性容易违背空间关系的内在约束，导致预测的3D框无法与真值在空间上完全对齐，降低了定位精度。
已有几何约束方法的不足：Deep3DBox 等通过超定方程组求解深度，对2D框微小扰动极其敏感；Homography Loss 缺乏细粒度校正；3D Copy-Paste 等数据增强方案未严格验证3D-2D投影一致性。
MonoDGP 的局限：虽然引入几何误差先验校正深度偏差，但仍独立回归各属性，缺乏统一的一致性约束。
训练稳定性问题：直接在训练早期施加高阶几何约束，由于初始预测噪声大，会导致训练不稳定，需要合理的调度策略。

SPAN 是一个可无缝嵌入任意单目3D检测器训练流程的即插即用模块。检测器原有分支回归2D和3D属性后，SPAN 附加两个几何协同约束损失，并通过分层任务学习动态调节权重，不引入额外推理模块或计算开销。

从预测的7-DoF参数（中心坐标、深度、尺寸、旋转角）计算3D框的8个角点 \(\{P_i\}_{i=1}^{8}\)
利用 MGIoU（Marginalized GIoU）方案：将3D框对齐问题分解为沿3个面法向量方向的1D GIoU问题，避免直接计算任意方向3D框交集的高计算复杂度
对每个法向量 \(\mathbf{a}_k\)，将预测和真值角点投影到该方向，计算1D区间的 GIoU
最终损失：\(\mathcal{L}_{3Dcorner} = (1 - \text{MGIoU}^{3D}) / 2\)，其中 MGIoU 是3个方向1D GIoU的均值
与 ROI-10D / MonoDIS 的区别：不是把角点回归作为辅助任务，而是直接约束主分支的7-DoF参数，使其生成的角点与真值对齐

总损失包含四部分：2D回归损失 \(\mathcal{L}_{2D}\)、3D回归损失 \(\mathcal{L}_{3D}\)、深度图损失 \(\mathcal{L}_{dmap}\)，以及两个几何约束损失。损失权重 \(\lambda_c = \lambda_p = 1.0\)。

训练分为4个阶段，通过 HTL 动态调权：

在KITTI测试集上（基于MonoDGP baseline）：

在KITTI验证集上：

\(\mathcal{L}_{3Dcorner}\)	\(\mathcal{L}_{proj}\)	HTL	Mod.
✗	✗	✗	22.34
✓	✗	✗	21.92（下降）
✗	✓	✗	21.80（下降）
✗	✗	✓	22.56
✓	✓	✓	23.26

关键发现：单独使用任一几何约束而不配合 HTL 反而降低性能，验证了分层训练策略的必要性。