跳转至

3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views

会议: ICCV 2025
arXiv: 2406.04875
代码: 无(数据集项目)
领域: 自动驾驶
关键词: 3D车辆数据集, RGB-D, 360度视角, 3D重建, 自动驾驶

一句话总结

本文提出首个大规模真实3D车辆数据集3DRealCar,包含2500辆来自100+品牌的真实车辆,每辆车约200张高分辨率360度RGB-D视图,覆盖反光/标准/暗光三种光照条件,并提供13类车辆解析标注,支持3D重建、检测、生成等多种任务。

研究背景与动机

现有痛点

现有痛点领域现状:高质量3D车辆模型在自动驾驶、虚拟/增强现实和游戏中有广泛需求。自动驾驶系统尤其需要模拟真实的corner-case场景(如交通事故),而这依赖于高质量的3D车辆资产。

现有3D车辆数据集存在明显不足:SRN-Car和Objaverse-Car是合成数据,缺乏真实纹理和几何细节;MVMC虽是真实数据但每辆车平均仅10张视图且无位姿标注,不足以进行高质量重建。自动驾驶数据集中的车辆图像分辨率低、视角有限。同时,文本到3D的生成方法(如MVDream)也无法生成高质量车辆模型。

核心痛点:缺乏大规模、高质量、多样化的真实3D车辆数据集。手工制作3D车辆模型耗时耗力,合成数据缺乏真实感,自动驾驶数据集视角和分辨率不足。

本文通过智能手机+ARKit的便捷采集方案,大规模扫描真实停放车辆,构建了一个具有高数量(2500辆)、高质量(200张稠密视图/车)、高多样性(100+品牌、3种光照)的3D真实车辆数据集。

方法详解

整体框架

数据集构建pipeline分为三个阶段:(1) 数据采集:使用iPhone 14 + ARKit扫描车辆,绕车三圈获取RGB-D图像和点云;(2) 数据预处理:背景去除、方向校正、点云缩放;(3) 标注和质量控制:提供品牌、类型、颜色、解析图等标注,过滤模糊和遮挡图像。

关键设计

  1. 数据采集策略:

    • 功能:使用消费级设备高效采集高质量3D车辆数据
    • 核心思路:使用iPhone 14的ARKit API扫描停放车辆,每辆车绕行三圈(每圈不同手机高度),获取约200张1920×1440分辨率的RGB-D图像及其点云。在三种光照条件下采集:标准(光照均匀)、反光(强烈镜面高光)和暗光(地下车库)
    • 设计动机:三圈不同高度扫描确保覆盖车辆全角度;ARKit提供深度信息和初始位姿;三种光照条件专门设计以暴露现有3D重建方法的挑战
  2. 背景去除与方向校正:

    • 功能:从原始扫描中提取纯车辆数据并统一朝向
    • 核心思路:2D层面使用Grounding DINO检测车辆包围框 + SAM分割车辆掩码;3D层面将点云投影到2D利用掩码去除背景点云。方向校正使用PCA对相机位姿求主成分 \(\mathcal{T} \in \mathbb{R}^{3\times3}\),将车辆朝向对齐到x轴;失败时人工干预
    • 设计动机:纯车辆数据有利于3D重建任务;统一朝向使渲染可控
  3. 点云缩放与位姿优化:

    • 功能:将重建的点云恢复到真实世界尺寸
    • 核心思路:使用Colmap重建更稠密的点云并获取精确相机位姿(ARKit位姿精度不足)。通过计算扫描前景点云与Colmap点云的包围框比例,缩放点云和相机位姿平移量到真实尺寸
    • 设计动机:真实尺寸的点云对自动驾驶仿真至关重要

数据集标注

  • 13类车辆解析图(车身、车窗、车灯、轮胎等),支持车辆部件理解任务
  • 车辆品牌(100+)、类型(Sedan/SUV/MPV/Van/Lorry/Sports Car)、颜色(20+种)的详细元数据
  • 隐私保护:车牌和私人信息已模糊处理

实验关键数据

主实验(3D重建基准)

方法 Standard PSNR↑ Reflective PSNR↑ Dark PSNR↑
3DGS 27.47 24.58 23.51
GaussianShader 27.53 25.41 23.39
Pixel-GS 27.67 24.81 23.54
3DGS-MCMC 27.63 24.92 23.63
Instant-NGP 27.31 24.37 23.17
2DGS 27.34 23.19 22.63

消融实验(模拟数据量对Corner-case检测的影响)

模拟数据量 YOLOv5n YOLOv8s CO-DETR YOLOv12x
1000 0.285 0.371 0.465 0.412
3000 0.345 0.403 0.517 0.489
5000 0.361 0.435 0.582 0.565

关键发现

  • 标准光照下现有方法可达27+ dB的高质量重建;但反光和暗光条件下PSNR显著下降(约3-4 dB),暴露了现有方法在极端光照下的局限
  • 使用3DRealCar数据微调后,Zero123-XL和Dreamcraft3D在真实车辆上的生成质量显著提升(CLIP-I从0.812→0.847,CD从0.587→0.371)
  • 模拟corner-case数据从1000增加到5000时,CO-DETR的mAP@0.5从0.465提升到0.582,证明数据集在自动驾驶安全领域的价值
  • GaussianShader在反光条件下表现最好,说明考虑材质属性的方法在光泽表面上有优势

亮点与洞察

  • 用智能手机即可完成高质量3D数据采集的方案,成本极低且可扩展
  • 三种光照条件的设计非常有前瞻性——反光和暗光条件为3D重建社区提出了新挑战
  • 数据集支持10+任务(检测、分割、重建、生成、NVS等),一套数据多重价值
  • 背景去除pipeline(Grounding DINO + SAM + 点云投影过滤)值得借鉴
  • 数据量惊人:2500辆车 × 200视图 = 50万张高分辨率RGB-D图像
  • Corner-case场景模拟的思路有实际应用价值,用3D重建的车辆合成稀有驾驶场景

局限与展望

  • 目前仅包含车辆外观视角,未来计划加入车辆内部视角以支持更完整的3D车辆建模
  • 白色和黑色车辆占比过高,颜色分布不够均衡,可能影响下游模型的泛化性
  • 位姿依赖Colmap,在纹理较少的车身区域(如大面积单色车漆)可能不够精确
  • 车辆仅在静止状态下采集,缺乏运动状态下的数据和形变建模
  • PCA方向校正有时失败需要人工干预,自动化程度可以提升
  • 反光和暗光条件下的数据虽然有挑战性价值,但实际重建质量仍不理想,需要新方法突破

相关工作与启发

  • vs SRN-Car/Objaverse-Car: 合成数据缺乏真实纹理,本文首次提供大规模真实3D车辆数据
  • vs MVMC: 平均200张视图 vs 10张,分辨率1920×1440 vs 600×450,且提供位姿和深度信息
  • vs Waymo/nuScenes: 这些自动驾驶数据集中车辆视角和分辨率有限,无法进行高质量单车重建
  • vs MVDream等生成方法: 生成方法因多视角不一致无法产出高质量车辆,真实数据不可替代
  • 启发: 用智能手机大规模采集3D数据的范式可以推广到其他物体类别(如家具、建筑)

评分

  • 新颖性: ⭐⭐⭐⭐ 首个大规模真实3D车辆数据集,三种光照条件设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 涵盖2D和3D多个下游任务的全面基准测试
  • 写作质量: ⭐⭐⭐⭐ 数据集特性和采集流程描述清晰,统计分析详尽
  • 价值: ⭐⭐⭐⭐⭐ 填补了真实3D车辆数据集的空白,对自动驾驶仿真有重要实际意义
  • 总评: 数据集贡献型工作的标杆,采集-处理-标注-基准的完整流程可供后续工作参考

相关论文