3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views¶
会议: ICCV 2025
arXiv: 2406.04875
代码: 无(数据集项目)
领域: 自动驾驶
关键词: 3D车辆数据集, RGB-D, 360度视角, 3D重建, 自动驾驶
一句话总结¶
本文提出首个大规模真实3D车辆数据集3DRealCar,包含2500辆来自100+品牌的真实车辆,每辆车约200张高分辨率360度RGB-D视图,覆盖反光/标准/暗光三种光照条件,并提供13类车辆解析标注,支持3D重建、检测、生成等多种任务。
研究背景与动机¶
现有痛点¶
现有痛点:领域现状:高质量3D车辆模型在自动驾驶、虚拟/增强现实和游戏中有广泛需求。自动驾驶系统尤其需要模拟真实的corner-case场景(如交通事故),而这依赖于高质量的3D车辆资产。
现有3D车辆数据集存在明显不足:SRN-Car和Objaverse-Car是合成数据,缺乏真实纹理和几何细节;MVMC虽是真实数据但每辆车平均仅10张视图且无位姿标注,不足以进行高质量重建。自动驾驶数据集中的车辆图像分辨率低、视角有限。同时,文本到3D的生成方法(如MVDream)也无法生成高质量车辆模型。
核心痛点:缺乏大规模、高质量、多样化的真实3D车辆数据集。手工制作3D车辆模型耗时耗力,合成数据缺乏真实感,自动驾驶数据集视角和分辨率不足。
本文通过智能手机+ARKit的便捷采集方案,大规模扫描真实停放车辆,构建了一个具有高数量(2500辆)、高质量(200张稠密视图/车)、高多样性(100+品牌、3种光照)的3D真实车辆数据集。
方法详解¶
整体框架¶
数据集构建pipeline分为三个阶段:(1) 数据采集:使用iPhone 14 + ARKit扫描车辆,绕车三圈获取RGB-D图像和点云;(2) 数据预处理:背景去除、方向校正、点云缩放;(3) 标注和质量控制:提供品牌、类型、颜色、解析图等标注,过滤模糊和遮挡图像。
关键设计¶
-
数据采集策略:
- 功能:使用消费级设备高效采集高质量3D车辆数据
- 核心思路:使用iPhone 14的ARKit API扫描停放车辆,每辆车绕行三圈(每圈不同手机高度),获取约200张1920×1440分辨率的RGB-D图像及其点云。在三种光照条件下采集:标准(光照均匀)、反光(强烈镜面高光)和暗光(地下车库)
- 设计动机:三圈不同高度扫描确保覆盖车辆全角度;ARKit提供深度信息和初始位姿;三种光照条件专门设计以暴露现有3D重建方法的挑战
-
背景去除与方向校正:
- 功能:从原始扫描中提取纯车辆数据并统一朝向
- 核心思路:2D层面使用Grounding DINO检测车辆包围框 + SAM分割车辆掩码;3D层面将点云投影到2D利用掩码去除背景点云。方向校正使用PCA对相机位姿求主成分 \(\mathcal{T} \in \mathbb{R}^{3\times3}\),将车辆朝向对齐到x轴;失败时人工干预
- 设计动机:纯车辆数据有利于3D重建任务;统一朝向使渲染可控
-
点云缩放与位姿优化:
- 功能:将重建的点云恢复到真实世界尺寸
- 核心思路:使用Colmap重建更稠密的点云并获取精确相机位姿(ARKit位姿精度不足)。通过计算扫描前景点云与Colmap点云的包围框比例,缩放点云和相机位姿平移量到真实尺寸
- 设计动机:真实尺寸的点云对自动驾驶仿真至关重要
数据集标注¶
- 13类车辆解析图(车身、车窗、车灯、轮胎等),支持车辆部件理解任务
- 车辆品牌(100+)、类型(Sedan/SUV/MPV/Van/Lorry/Sports Car)、颜色(20+种)的详细元数据
- 隐私保护:车牌和私人信息已模糊处理
实验关键数据¶
主实验(3D重建基准)¶
| 方法 | Standard PSNR↑ | Reflective PSNR↑ | Dark PSNR↑ |
|---|---|---|---|
| 3DGS | 27.47 | 24.58 | 23.51 |
| GaussianShader | 27.53 | 25.41 | 23.39 |
| Pixel-GS | 27.67 | 24.81 | 23.54 |
| 3DGS-MCMC | 27.63 | 24.92 | 23.63 |
| Instant-NGP | 27.31 | 24.37 | 23.17 |
| 2DGS | 27.34 | 23.19 | 22.63 |
消融实验(模拟数据量对Corner-case检测的影响)¶
| 模拟数据量 | YOLOv5n | YOLOv8s | CO-DETR | YOLOv12x |
|---|---|---|---|---|
| 1000 | 0.285 | 0.371 | 0.465 | 0.412 |
| 3000 | 0.345 | 0.403 | 0.517 | 0.489 |
| 5000 | 0.361 | 0.435 | 0.582 | 0.565 |
关键发现¶
- 标准光照下现有方法可达27+ dB的高质量重建;但反光和暗光条件下PSNR显著下降(约3-4 dB),暴露了现有方法在极端光照下的局限
- 使用3DRealCar数据微调后,Zero123-XL和Dreamcraft3D在真实车辆上的生成质量显著提升(CLIP-I从0.812→0.847,CD从0.587→0.371)
- 模拟corner-case数据从1000增加到5000时,CO-DETR的mAP@0.5从0.465提升到0.582,证明数据集在自动驾驶安全领域的价值
- GaussianShader在反光条件下表现最好,说明考虑材质属性的方法在光泽表面上有优势
亮点与洞察¶
- 用智能手机即可完成高质量3D数据采集的方案,成本极低且可扩展
- 三种光照条件的设计非常有前瞻性——反光和暗光条件为3D重建社区提出了新挑战
- 数据集支持10+任务(检测、分割、重建、生成、NVS等),一套数据多重价值
- 背景去除pipeline(Grounding DINO + SAM + 点云投影过滤)值得借鉴
- 数据量惊人:2500辆车 × 200视图 = 50万张高分辨率RGB-D图像
- Corner-case场景模拟的思路有实际应用价值,用3D重建的车辆合成稀有驾驶场景
局限与展望¶
- 目前仅包含车辆外观视角,未来计划加入车辆内部视角以支持更完整的3D车辆建模
- 白色和黑色车辆占比过高,颜色分布不够均衡,可能影响下游模型的泛化性
- 位姿依赖Colmap,在纹理较少的车身区域(如大面积单色车漆)可能不够精确
- 车辆仅在静止状态下采集,缺乏运动状态下的数据和形变建模
- PCA方向校正有时失败需要人工干预,自动化程度可以提升
- 反光和暗光条件下的数据虽然有挑战性价值,但实际重建质量仍不理想,需要新方法突破
相关工作与启发¶
- vs SRN-Car/Objaverse-Car: 合成数据缺乏真实纹理,本文首次提供大规模真实3D车辆数据
- vs MVMC: 平均200张视图 vs 10张,分辨率1920×1440 vs 600×450,且提供位姿和深度信息
- vs Waymo/nuScenes: 这些自动驾驶数据集中车辆视角和分辨率有限,无法进行高质量单车重建
- vs MVDream等生成方法: 生成方法因多视角不一致无法产出高质量车辆,真实数据不可替代
- 启发: 用智能手机大规模采集3D数据的范式可以推广到其他物体类别(如家具、建筑)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模真实3D车辆数据集,三种光照条件设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖2D和3D多个下游任务的全面基准测试
- 写作质量: ⭐⭐⭐⭐ 数据集特性和采集流程描述清晰,统计分析详尽
- 价值: ⭐⭐⭐⭐⭐ 填补了真实3D车辆数据集的空白,对自动驾驶仿真有重要实际意义
- 总评: 数据集贡献型工作的标杆,采集-处理-标注-基准的完整流程可供后续工作参考
相关论文¶
- [ICCV 2025] 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
- [ICCV 2025] GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting
- [ICCV 2025] Detect Anything 3D in the Wild
- [ICCV 2025] LangTraj: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation
- [ICCV 2025] UAVScenes: A Multi-Modal Dataset for UAVs