CHARM3R: Towards Unseen Camera Height Robust Monocular 3D Detector¶
会议: ICCV 2025
arXiv: 2508.11185
代码: 有
领域: 3D视觉
关键词: 单目3D检测, 相机高度鲁棒性, 深度估计外推, 地平面深度, 自动驾驶
一句话总结¶
通过数学证明回归深度和地平面深度在相机高度变化时具有相反的外推趋势,提出CHARM3R在模型内简单平均两种深度估计来抵消趋势,实现Mono3D对未见相机高度的鲁棒泛化,AP3D提升超过45%。
研究背景与动机¶
现有痛点¶
现有痛点:领域现状:单目3D检测在自动驾驶中至关重要,但现有模型在训练和推理使用不同相机高度时性能急剧下降:
实际需求迫切:自动驾驶平台的相机高度差异巨大(小型机器人、轿车、卡车),但几乎所有训练数据都来自特定高度(如轿车),为每种高度重新收集标注不可行
性能退化严重:SoTA检测器在0.76m的高度变化下AP3D_70下降超过35个绝对点
现有方案不足:Plucker嵌入、图像变换(假设恒定深度)、数据增强等策略在较大高度变化下效果有限
作者首先系统分析了高度变化的影响,发现深度估计是性能下降的首要因素,并发现回归深度和地平面深度有截然相反的外推行为。
方法详解¶
整体框架¶
CHARM3R在现有Mono3D检测器内部同时维护两种深度估计(回归深度+地平面深度),然后取简单平均作为最终深度预测。核心在于两种深度在相机高度变化下的互补性。
关键设计¶
1. 地平面深度模型(Ground-based Depth)
对前置相机,地平面上像素的深度可由相机参数精确计算:\(z = \frac{H - b_2}{\frac{v - v_0}{f}}\)。CHARM3R利用预测的投影3D底部中心查询地平面深度:\(v_b = v_c + \frac{1}{2}h_{2D} + \alpha(v_c - v_{c,2D})\),其中\(\alpha\)是可学习的校正系数。
定理1:地平面深度的平均误差随ΔH呈正斜率,高度增加时过估深度,减少时低估。
2. 回归深度模型(Regression-based Depth)
标准Mono3D利用投影3D中心的像素位置回归深度。
定理2:回归深度的平均误差随ΔH呈负斜率,高度增加时低估深度,减少时过估。
3. 深度合并
取简单平均:\(\hat{z} = \frac{1}{2}(\hat{z}^r + \hat{z}^g)\)。两种外推趋势恰好相反,平均有效抵消误差。
4. ReLU激活:对分母\((v_b - v_0)\)施加ReLU确保非负性,提高训练稳定性。
损失函数 / 训练策略¶
- 在现有Mono3D检测器基础上添加地平面深度分支,端到端训练
- 仅在轿车高度数据上训练,直接泛化到未见高度
- 简单平均优于学习加权(后者过拟合训练分布)
实验关键数据¶
主实验¶
CARLA Val(GUP Net骨干,训练ΔH=0m,测试多高度):
| 方法 | AP3D_70 (ΔH=-0.7) | AP3D_70 (ΔH=0) | AP3D_70 (ΔH=+0.76) | MDE (-0.7) | MDE (+0.76) |
|---|---|---|---|---|---|
| Source | 9.46 | 53.82 | 7.23 | +0.53 | -0.63 |
| Plucker | 8.43 | 55.56 | 10.13 | +0.55 | -0.63 |
| UniDrive++ | 10.83 | 53.82 | 12.27 | +0.39 | -0.48 |
| CHARM3R | 19.45 | 55.68 | 27.33 | +0.07 | -0.02 |
| Oracle | 70.96 | 53.82 | 62.25 | +0.03 | +0.03 |
DEVIANT骨干同样有效:ΔH=+0.76m时AP3D_70从6.25升至26.24。
消融实验¶
设计选择消融(GUP Net + CHARM3R):
| 设计变更 | AP3D_70 (-0.7m) | AP3D_70 (0m) | AP3D_70 (+0.76m) |
|---|---|---|---|
| 仅回归深度 | 9.46 | 53.82 | 7.23 |
| 仅地平面深度 | 0.98 | 26.61 | 5.39 |
| 离线合并 | 12.86 | 47.66 | 18.36 |
| 学习加权平均 | 8.25 | 56.49 | 9.53 |
| 无ReLU | 0.60 | 52.94 | 0.07 |
| CHARM3R | 19.45 | 55.68 | 27.33 |
关键发现¶
- MDE趋势验证:回归模型MDE随高度增呈负(+0.53→-0.63),地平面呈正(-0.80→+0.55),CHARM3R近零(+0.07→-0.02)
- 简单平均优于学习加权(OOD场景),学习权重过拟合训练分布
- ReLU必要:移除后训练不稳定甚至崩溃
- 在ResNet-18骨干上同样有效
亮点与洞察¶
- 理论驱动的设计:两个定理为方法提供清晰理论基础,不是经验拼凑
- 极简方案的力量:简单平均两种深度即可获得45%+的OOD提升,优雅体现"对称性抵消"思想
- 问题导向的研究范式:先深入分析问题本质(深度误差分解),再据此设计方案
局限与展望¶
- 仅在仿真数据集CARLA上验证,缺乏真实世界多高度数据实验
- 定理依赖简化假设(线性回归模型、ΔH远小于z)
- 仅考虑垂直高度变化,未处理俯仰角变化
- 地平面假设限制非平坦道路场景的适用性
- 可扩展到更多检测器架构(如transformer-based)
相关工作与启发¶
- 与BEVHeight等多高度训练方案不同,本文仅需单高度训练数据
- 互补性思想可能推广到其他外推问题(不同焦距、不同倾斜角)
- 简单平均优于学习权重的观察呼应域泛化领域发现
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (理论推导+简洁实用方案,非常优雅)
- 实验充分度: ⭐⭐⭐⭐ (消融充实但仅限仿真数据)
- 写作质量: ⭐⭐⭐⭐⭐ (逻辑链条清晰,定理证明严谨)
- 价值: ⭐⭐⭐⭐ (揭示重要被忽视问题,方案可直接集成到现有检测器)
相关论文¶
- [ICCV 2025] Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration
- [ICCV 2025] Accelerate 3D Object Detection Models via Zero-Shot Attention Key Pruning
- [ICCV 2025] BezierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting
- [ICCV 2025] TimeFormer: Capturing Temporal Relationships of Deformable 3D Gaussians for Robust Reconstruction
- [ICCV 2025] StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions