Cubify Anything: Scaling Indoor 3D Object Detection¶
会议: CVPR 2025
arXiv: 2412.04458
代码: 数据集和模型将公开
领域: 自动驾驶
关键词: 室内3D物体检测, 大规模数据集, Transformer, 像素级3D标注, 类别无关
一句话总结¶
本文提出 Cubify Anything 1M (CA-1M) 数据集——首个在激光扫描上穷尽标注所有物体的大规模室内3D检测数据集(440K物体/1K场景/3.5K采集/13M帧/像素完美投影),并提出全 Transformer 检测器 CuTR,证明在数据充沛时无需3D归纳偏置(点云/体素)即可超越点云方法。
研究背景与动机¶
领域现状:室内3D物体检测主要在 SUN RGB-D、ScanNet 等数据集上进行,模型通常操作3D点云或体素。主流方法依赖稀疏3D卷积等专用操作,需要3D归纳偏置来弥补数据集规模的不足。
现有痛点:(1) 现有数据集标注不够穷尽——主要关注大型房间级物体(椅子、床、桌),忽略日常小物件;(2) 标注来源精度有限——基于消费级深度传感器的噪声3D重建标注,投影回图像时存在明显错位;(3) 点云方法将模型设计与标注偏差绑定,限制了可扩展性;(4) 3D归纳偏置(稀疏卷积、KNN)对GPU以外的加速器不友好。
核心矛盾:现有"小数据+强归纳偏置"范式在小规模数据集上有效,但限制了向更多物体类别和更大规模的扩展。
本文目标:构建大规模、高精度、穷尽标注的数据集,并验证在数据充沛时最小归纳偏置的模型能否超越复杂的3D方法。
切入角度:利用 ARKitScenes 的高精度 FARO 激光扫描(而非消费级深度)进行标注,并利用激光扫描与手持采集间的精确配准实现像素完美的帧级投影。
核心 idea:在激光扫描上穷尽标注所有物体(类别无关),精确投影到每帧图像获得像素级3D框标注,然后用纯 Transformer 从2D特征直接预测3D框。
方法详解¶
整体框架¶
分为数据集和模型两部分:(1) CA-1M 数据集:在 FARO 激光扫描上标注9-DOF 3D框→利用配准矩阵投影到每帧手持采集→渲染过程考虑视锥和遮挡→得到每帧的2D+3D框标注;(2) CuTR 模型:ViT 骨干提取2D特征→单阶段/单尺度检测头→直接从 RGB(-D) 预测2D和3D框,无需任何3D空间操作。
关键设计¶
-
CA-1M 数据集构建:
- 功能:提供首个高精度、穷尽标注、像素完美的大规模室内3D检测数据集
- 核心思路:在 FARO 激光扫描(亚厘米精度)上标注每个场景的所有可见物体的9-DOF 3D框(类别无关),包括小物件。然后利用 ARKitScenes 提供的激光扫描与 iPad Pro RGB-D 采集之间的精确配准,将3D框投影到每一帧。投影时渲染视锥截断和遮挡关系,确保2D/3D框与帧内容像素级一致。1000+场景、3500+采集、440K唯一物体、13M训练帧
- 设计动机:解决现有数据集的三大缺陷:不穷尽(只标大物体)、不精确(噪声深度标注)、不一致(3D框投影回图像有偏差)
-
CuTR(Cubify Transformer):
- 功能:纯 Transformer 的3D物体检测器,从2D特征直接预测3D框
- 核心思路:使用预训练 ViT 骨干处理 RGB 图像和可选深度图,提取2D特征图。接单阶段检测头(类似 DETR),同时输出2D框和3D框(包含3D中心、尺寸、方向)。整个过程不涉及任何3D空间操作(无体素化、无稀疏卷积、无KNN)
- 设计动机:验证"大数据可以替代3D归纳偏置"的假设。如果数据足够好、足够多,简单的 Transformer 就能学会从2D推理3D
-
从3D框到帧级标注的渲染管线:
- 功能:将场景级的3D框标注转化为每帧图像的2D+3D框标注
- 核心思路:对每帧相机姿态,将3D框投影到相机坐标系,检查是否在视锥内;计算遮挡关系(其他物体是否挡住当前物体);生成每帧的可见物体列表及其2D/3D框。该过程保证标注与图像内容的像素级一致性
- 设计动机:场景级标注无法直接用于帧级训练,精确的渲染管线是高质量帧级标注的关键
损失函数 / 训练策略¶
标准的检测损失:分类损失 + 2D框回归损失 + 3D框回归损失(中心/尺寸/方向)。训练仅需 ViT 骨干预训练权重,无需复杂的3D基础设施。
实验关键数据¶
主实验¶
| 方法 | CA-1M 3D Recall@62% | SUN RGB-D (预训练后) | 输入 |
|---|---|---|---|
| CuTR | 62%+ | 超越点云方法 | RGB-D |
| VoteNet (点云) | 较低 | 竞争力 | 点云 |
| ImVoteNet (混合) | 中等 | 竞争力 | RGB-D+点云 |
消融实验¶
| 配置 | 关键效果 |
|---|---|
| CuTR 仅RGB(无深度) | 有前景的性能,证明从纯图像推理3D的可行性 |
| CuTR RGB-D | 最佳性能,深度提供重要几何线索 |
| 点云方法在CA-1M上 | 性能不如CuTR,3D归纳偏置在大数据下反而成为限制 |
| CuTR预训练CA-1M→SUN RGB-D | 超越点云方法,证明预训练迁移能力 |
关键发现¶
- 在CA-1M的数据规模下,无3D归纳偏置的CuTR超越了点云方法——"数据>归纳偏置"在3D检测中同样成立
- 消费级LiDAR深度的噪声对点云方法影响更大,CuTR处理噪声深度的能力更强
- 仅RGB的CuTR也展现有前景的性能,暗示3D检测可能不一定需要深度输入
- CA-1M预训练显著提升在更小数据集上的性能(迁移学习价值)
亮点与洞察¶
- "数据解开假设"具有启发性——将数据的空间精度(标注在激光扫描上)与帧级完美性(像素级投影)解耦,使得同一标注同时服务于场景级和帧级
- 类别无关的穷尽标注策略为"检测一切"的发展方向奠定数据基础
- CuTR 的极简设计(纯 Transformer 无3D操作)对硬件友好,可在各种加速器上运行
局限与展望¶
- 数据集基于 ARKitScenes 的1000+场景,多样性仍有限(主要是室内住宅/办公场景)
- 类别无关标注缺乏语义信息,难以直接用于需要类别的下游任务
- 帧级预测缺少时序一致性,视频级检测和追踪是自然扩展
- 可结合 MLLM 实现基于自然语言的空间理解
相关工作与启发¶
- vs SUN RGB-D: 小规模(10K帧)、仅标注大物体、标注精度有限。CA-1M大10倍以上且像素完美
- vs ScanNet: 无显式3D框标注,仅有实例分割。CA-1M提供精确的9-DOF框
- vs ARKitScenes: 标注在噪声手持重建上且仅21类大物体。CA-1M在高精度激光扫描上穷尽标注
- vs Omni3D: 追求跨数据集泛化。CA-1M追求单数据集内穷尽和精确
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 数据集构建理念有范式转变意义(从粗糙3D到像素完美),CuTR验证了重要假设
- 实验充分度: ⭐⭐⭐⭐ 覆盖CA-1M和SUN RGB-D,包含迁移学习验证
- 写作质量: ⭐⭐⭐⭐⭐ 论文动机论证充分,数据集设计描述详细
- 价值: ⭐⭐⭐⭐⭐ 数据集和模型对室内3D理解研究有重要基础设施价值
相关论文¶
- [CVPR 2025] PAP: A Prediction-as-Perception Framework for 3D Object Detection
- [CVPR 2025] RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion
- [ECCV 2024] Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene
- [CVPR 2025] Segment Anything, Even Occluded
- [CVPR 2025] EV-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event Cameras