跳转至

Cubify Anything: Scaling Indoor 3D Object Detection

会议: CVPR 2025
arXiv: 2412.04458
代码: 数据集和模型将公开
领域: 自动驾驶
关键词: 室内3D物体检测, 大规模数据集, Transformer, 像素级3D标注, 类别无关

一句话总结

本文提出 Cubify Anything 1M (CA-1M) 数据集——首个在激光扫描上穷尽标注所有物体的大规模室内3D检测数据集(440K物体/1K场景/3.5K采集/13M帧/像素完美投影),并提出全 Transformer 检测器 CuTR,证明在数据充沛时无需3D归纳偏置(点云/体素)即可超越点云方法。

研究背景与动机

领域现状:室内3D物体检测主要在 SUN RGB-D、ScanNet 等数据集上进行,模型通常操作3D点云或体素。主流方法依赖稀疏3D卷积等专用操作,需要3D归纳偏置来弥补数据集规模的不足。

现有痛点:(1) 现有数据集标注不够穷尽——主要关注大型房间级物体(椅子、床、桌),忽略日常小物件;(2) 标注来源精度有限——基于消费级深度传感器的噪声3D重建标注,投影回图像时存在明显错位;(3) 点云方法将模型设计与标注偏差绑定,限制了可扩展性;(4) 3D归纳偏置(稀疏卷积、KNN)对GPU以外的加速器不友好。

核心矛盾:现有"小数据+强归纳偏置"范式在小规模数据集上有效,但限制了向更多物体类别和更大规模的扩展。

本文目标:构建大规模、高精度、穷尽标注的数据集,并验证在数据充沛时最小归纳偏置的模型能否超越复杂的3D方法。

切入角度:利用 ARKitScenes 的高精度 FARO 激光扫描(而非消费级深度)进行标注,并利用激光扫描与手持采集间的精确配准实现像素完美的帧级投影。

核心 idea:在激光扫描上穷尽标注所有物体(类别无关),精确投影到每帧图像获得像素级3D框标注,然后用纯 Transformer 从2D特征直接预测3D框。

方法详解

整体框架

分为数据集和模型两部分:(1) CA-1M 数据集:在 FARO 激光扫描上标注9-DOF 3D框→利用配准矩阵投影到每帧手持采集→渲染过程考虑视锥和遮挡→得到每帧的2D+3D框标注;(2) CuTR 模型:ViT 骨干提取2D特征→单阶段/单尺度检测头→直接从 RGB(-D) 预测2D和3D框,无需任何3D空间操作。

关键设计

  1. CA-1M 数据集构建:

    • 功能:提供首个高精度、穷尽标注、像素完美的大规模室内3D检测数据集
    • 核心思路:在 FARO 激光扫描(亚厘米精度)上标注每个场景的所有可见物体的9-DOF 3D框(类别无关),包括小物件。然后利用 ARKitScenes 提供的激光扫描与 iPad Pro RGB-D 采集之间的精确配准,将3D框投影到每一帧。投影时渲染视锥截断和遮挡关系,确保2D/3D框与帧内容像素级一致。1000+场景、3500+采集、440K唯一物体、13M训练帧
    • 设计动机:解决现有数据集的三大缺陷:不穷尽(只标大物体)、不精确(噪声深度标注)、不一致(3D框投影回图像有偏差)
  2. CuTR(Cubify Transformer):

    • 功能:纯 Transformer 的3D物体检测器,从2D特征直接预测3D框
    • 核心思路:使用预训练 ViT 骨干处理 RGB 图像和可选深度图,提取2D特征图。接单阶段检测头(类似 DETR),同时输出2D框和3D框(包含3D中心、尺寸、方向)。整个过程不涉及任何3D空间操作(无体素化、无稀疏卷积、无KNN)
    • 设计动机:验证"大数据可以替代3D归纳偏置"的假设。如果数据足够好、足够多,简单的 Transformer 就能学会从2D推理3D
  3. 从3D框到帧级标注的渲染管线:

    • 功能:将场景级的3D框标注转化为每帧图像的2D+3D框标注
    • 核心思路:对每帧相机姿态,将3D框投影到相机坐标系,检查是否在视锥内;计算遮挡关系(其他物体是否挡住当前物体);生成每帧的可见物体列表及其2D/3D框。该过程保证标注与图像内容的像素级一致性
    • 设计动机:场景级标注无法直接用于帧级训练,精确的渲染管线是高质量帧级标注的关键

损失函数 / 训练策略

标准的检测损失:分类损失 + 2D框回归损失 + 3D框回归损失(中心/尺寸/方向)。训练仅需 ViT 骨干预训练权重,无需复杂的3D基础设施。

实验关键数据

主实验

方法 CA-1M 3D Recall@62% SUN RGB-D (预训练后) 输入
CuTR 62%+ 超越点云方法 RGB-D
VoteNet (点云) 较低 竞争力 点云
ImVoteNet (混合) 中等 竞争力 RGB-D+点云

消融实验

配置 关键效果
CuTR 仅RGB(无深度) 有前景的性能,证明从纯图像推理3D的可行性
CuTR RGB-D 最佳性能,深度提供重要几何线索
点云方法在CA-1M上 性能不如CuTR,3D归纳偏置在大数据下反而成为限制
CuTR预训练CA-1M→SUN RGB-D 超越点云方法,证明预训练迁移能力

关键发现

  • 在CA-1M的数据规模下,无3D归纳偏置的CuTR超越了点云方法——"数据>归纳偏置"在3D检测中同样成立
  • 消费级LiDAR深度的噪声对点云方法影响更大,CuTR处理噪声深度的能力更强
  • 仅RGB的CuTR也展现有前景的性能,暗示3D检测可能不一定需要深度输入
  • CA-1M预训练显著提升在更小数据集上的性能(迁移学习价值)

亮点与洞察

  • "数据解开假设"具有启发性——将数据的空间精度(标注在激光扫描上)与帧级完美性(像素级投影)解耦,使得同一标注同时服务于场景级和帧级
  • 类别无关的穷尽标注策略为"检测一切"的发展方向奠定数据基础
  • CuTR 的极简设计(纯 Transformer 无3D操作)对硬件友好,可在各种加速器上运行

局限与展望

  • 数据集基于 ARKitScenes 的1000+场景,多样性仍有限(主要是室内住宅/办公场景)
  • 类别无关标注缺乏语义信息,难以直接用于需要类别的下游任务
  • 帧级预测缺少时序一致性,视频级检测和追踪是自然扩展
  • 可结合 MLLM 实现基于自然语言的空间理解

相关工作与启发

  • vs SUN RGB-D: 小规模(10K帧)、仅标注大物体、标注精度有限。CA-1M大10倍以上且像素完美
  • vs ScanNet: 无显式3D框标注,仅有实例分割。CA-1M提供精确的9-DOF框
  • vs ARKitScenes: 标注在噪声手持重建上且仅21类大物体。CA-1M在高精度激光扫描上穷尽标注
  • vs Omni3D: 追求跨数据集泛化。CA-1M追求单数据集内穷尽和精确

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 数据集构建理念有范式转变意义(从粗糙3D到像素完美),CuTR验证了重要假设
  • 实验充分度: ⭐⭐⭐⭐ 覆盖CA-1M和SUN RGB-D,包含迁移学习验证
  • 写作质量: ⭐⭐⭐⭐⭐ 论文动机论证充分,数据集设计描述详细
  • 价值: ⭐⭐⭐⭐⭐ 数据集和模型对室内3D理解研究有重要基础设施价值

相关论文