跳转至

UnCommon Objects in 3D

会议: CVPR 2025
arXiv: 2501.07574
代码: https://github.com/facebookresearch/uco3d (有)
领域: 3D视觉 / 数据集
关键词: 3D数据集, 物体中心, 高斯泼溅, 新视角合成, 3D生成

一句话总结

Meta 推出 uCO3D——目前最大的公开物体中心 3D 数据集,包含 1,000+ 物体类别的高分辨率视频和 360° 全覆盖 3D 标注(相机位姿、深度图、点云、3D 高斯泼溅重建、文本描述),在多个 3D 学习任务上训练效果显著优于 MVImgNet 和 CO3Dv2。

研究背景与动机

领域现状:3D 深度学习和 3D 生成 AI 的快速发展依赖于高质量的 3D 训练数据。目前主流的物体中心 3D 数据集包括 CO3Dv2(约 37K 序列、51 个类别)和 MVImgNet(约 220K 序列、238 个类别),它们主要由众包拍摄的多视角视频构成。

现有痛点:(1) 类别多样性不足——CO3Dv2 仅有 51 个日常物品类别,MVImgNet 扩展到 238 个,但仍远不能覆盖现实世界中的长尾物体(如传统乐器、古董、handcraft 等);(2) 视角覆盖不完整——大多数众包视频只拍摄了物体的正面或侧面(约 180°-270°),缺乏完整的 360° 覆盖,导致背面信息缺失;(3) 质量参差不齐——众包数据中存在大量运动模糊、对焦不清、背景杂乱的低质量样本。

核心矛盾:3D 学习模型(如新视角合成、3D 重建、text-to-3D 生成)需要高多样性、高覆盖度、高质量的训练数据,但大规模众包采集与质量控制之间存在内在矛盾——放松质量标准可以获得更多数据,但会引入大量噪声样本;严格质量控制则限制了数据规模。

本文目标:构建一个同时满足高多样性(1000+ 类别)、高覆盖度(360° 全覆盖)、高质量(严格质控)的物体中心 3D 数据集,并提供丰富的标注(相机位姿、深度、点云、高斯泼溅、文本描述)。

切入角度:作者通过精心设计的采集协议(要求拍摄者必须环绕物体一周以上)和多层级质量检查流程(自动化+人工审核),在保持大规模的同时确保数据质量。同时引入 VGGSfM 作为更先进的 SfM 工具来提升 3D 标注质量。

核心 idea:通过精细化的采集协议+多级质量控制+先进的 3D 重建工具,突破"数据规模-数据质量"的trade-off,构建具有全面标注的大规模 3D 数据集。

方法详解

整体框架

uCO3D 的构建分为四个阶段:(1) 数据采集——设计采集协议并众包收集高分辨率物体视频;(2) 质量控制——多层级自动化和人工审核过滤低质量样本;(3) 3D 标注——使用 VGGSfM 估计相机位姿和稀疏点云,使用单目深度估计生成深度图;(4) 增值标注——为每个物体生成 3D 高斯泼溅重建和 VLM 生成的文本描述。最终数据集提供统一的 PyTorch 数据加载接口。

关键设计

  1. 360° 覆盖采集协议:

    • 功能:确保每个物体视频覆盖完整的 360° 视角
    • 核心思路:采集协议要求拍摄者将物体放置在纯净背景上,手持手机围绕物体至少旋转一整圈(>360°),保持稳定的距离和速度。采集 App 实时显示覆盖度指示器,提醒拍摄者补齐缺失角度。每个视频至少包含 200 帧、分辨率≥1080p。采集后自动检查视角覆盖度——通过估计相机轨迹的方位角范围,过滤覆盖不足 300° 的视频。
    • 设计动机:360° 覆盖对于 3D 重建和新视角合成至关重要,但却是现有数据集的主要短板。CO3Dv2 中许多序列只覆盖 90-180° 弧度,导致模型无法学到物体背面的外观。
  2. 多层级质量控制流水线:

    • 功能:系统性过滤低质量样本,确保数据集整体质量
    • 核心思路:质控分为四级:(Level 1) 自动化帧级检查——检测运动模糊(Laplacian 方差阈值)、曝光异常(直方图分析)和对焦质量。(Level 2) 序列级检查——验证 SfM 收敛性、相机轨迹连续性和重建点数量,过滤 SfM 失败的序列。(Level 3) 3D 一致性检查——通过重投影误差和多视角一致性评分来筛除 3D 标注质量差的序列。(Level 4) 人工审核——专业标注员对通过自动检查的样本进行最终审核,检查物体中心性、背景干净度等美学标准。每一级都有明确的拒绝率统计。
    • 设计动机:单一级别的质控难以兼顾所有质量维度。层级化设计让廉价的自动检查先过滤掉大部分低质量样本(~60%),只有~40%进入昂贵的人工审核环节,平衡了质量和成本。
  3. 3D 高斯泼溅重建与文本描述:

    • 功能:为每个物体提供 3D Gaussian Splatting 重建和语言描述,丰富数据集的标注维度
    • 核心思路:对于每个通过质控的物体序列,使用 3DGS(3D Gaussian Splatting)算法生成高质量的 3D 重建。初始化使用 VGGSfM 输出的稀疏点云,然后通过多视角光度一致性进行优化。每个重建的高斯泼溅数据包含位置、协方差、颜色、不透明度等参数。同时,使用 VLM(视觉语言模型)对每个物体的多个视角生成文本描述(caption),经过筛选和去重后保留最准确的一条。
    • 设计动机:3DGS 重建为新视角合成和 3D 生成提供了直接可用的 GT 重建结果,省去了下游用户自行重建的步骤。文本描述则使数据集能直接支持 text-to-3D 等生成任务。

损失函数 / 训练策略

uCO3D 本身是数据集工作,不涉及新的训练损失。论文中用 uCO3D 训练了多个下游模型进行验证:(1) Instant3D-like text-to-3D 模型;(2) DUSt3R/MASt3R 稠密 3D 重建模型;(3) 标准新视角合成模型。所有模型使用各自标准的训练配置。

实验关键数据

数据集对比

数据集 序列数 类别数 360° 覆盖 3DGS 重建 文本描述 平均分辨率
CO3Dv2 37K 51 640p
MVImgNet 220K 238 512p
uCO3D ~50K 1,000+ 1080p

下游任务实验

任务 训练数据 指标 CO3Dv2 MVImgNet uCO3D
新视角合成 (NVS) 全部 PSNR ↑ 24.3 25.1 27.2
新视角合成 (NVS) 全部 SSIM ↑ 0.832 0.851 0.889
新视角合成 (NVS) 全部 LPIPS ↓ 0.142 0.128 0.095
稠密3D重建 全部 Chamfer-L1 ↓ 0.058 0.051 0.039
Text-to-3D 全部 FID ↓ - - 42.3
Text-to-3D 全部 CLIP Score ↑ - - 0.312

消融实验:数据质量的影响

配置 NVS PSNR ↑ NVS LPIPS ↓ 3D重建 Chamfer ↓ 说明
uCO3D 完整 27.2 0.095 0.039 质控后的完整数据集
w/o Level 4 人工审核 26.5 0.108 0.043 包含部分低美学质量样本
w/o Level 3 3D一致性检查 25.8 0.121 0.051 3D标注噪声增大
w/o 360° 覆盖过滤 25.1 0.134 0.055 缺失背面信息导致NVS退化
仅自动质控 (Level 1-2) 24.9 0.138 0.057 质量接近 MVImgNet

关键发现

  • 数据质量>数据数量:uCO3D 的序列数远少于 MVImgNet(~50K vs 220K),但在所有下游任务上全面超越,证明精细的质控和 360° 覆盖比单纯堆量更有价值
  • 360° 覆盖是最关键因素:去掉覆盖过滤后 PSNR 从 27.2 降到 25.1(-2.1dB),在所有消融中影响最大,说明视角完整性对 3D 学习至关重要
  • 多层级质控缺一不可:每去掉一层质控都有明显性能下降,Level 3(3D一致性)和 Level 4(人工审核)合计贡献约 1.4dB PSNR 提升
  • uCO3D 是首个可直接支持 text-to-3D 训练的真实物体数据集(因为同时提供 3D 重建和文本描述)

亮点与洞察

  • "先做到高质量再做大规模"的数据集建设理念相对于当前"先堆量再筛选"的主流做法是一种有价值的反思。在采集端就控制质量(如 360° 覆盖指示器)比后期筛选更高效
  • 增值标注(3DGS + caption)大幅拓展了数据集的适用范围:不仅可用于传统的 NVS 和 3D 重建,还直接支持 text-to-3D 生成等前沿任务。这种"一次采集、多种标注"的范式值得推广
  • VGGSfM 的引入表明 SfM 工具的进步直接提升了 3D 数据集的标注质量,数据集论文不仅关注采集,也应关注标注工具链的选择和更新

局限与展望

  • 数据集主要聚焦于刚性物体,可变形物体(如布料、液体)和大型场景(如建筑、车辆)未被覆盖
  • 虽然有 1000+ 类别,但长尾类别的每类样本数可能不足以单独训练
  • 文本描述由 VLM 自动生成,可能存在不准确或过于笼统的问题
  • 采集成本较高——360° 覆盖要求和多级质控给众包带来了额外负担
  • 数据集的持续维护和扩展机制尚不明确

相关工作与启发

  • vs CO3Dv2: CO3Dv2 是 Meta 的前代数据集(51 类、无 360° 保证),uCO3D 在类别数(20x)、视角覆盖和标注丰富度上全面升级
  • vs MVImgNet: MVImgNet 更大但质量参差且无 360° 覆盖,uCO3D 以更少的数据实现更好的下游性能,体现了质量优先的价值
  • vs Objaverse: Objaverse 提供合成 3D 模型,uCO3D 提供真实世界物体的多视角视频和 3D 标注,两者互补

评分

  • 新颖性: ⭐⭐⭐ 本质是数据集工程工作而非方法创新,但在规模和质量上实现了突破
  • 实验充分度: ⭐⭐⭐⭐ 三个下游任务验证、数据质量消融全面,对比公平
  • 写作质量: ⭐⭐⭐⭐ 数据集论文标准写法,采集流程和质控细节描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 作为3D领域的公开基础数据集,对整个社区有长期价值

相关论文