UnCommon Objects in 3D¶
会议: CVPR 2025
arXiv: 2501.07574
代码: https://github.com/facebookresearch/uco3d (有)
领域: 3D视觉 / 数据集
关键词: 3D数据集, 物体中心, 高斯泼溅, 新视角合成, 3D生成
一句话总结¶
Meta 推出 uCO3D——目前最大的公开物体中心 3D 数据集,包含 1,000+ 物体类别的高分辨率视频和 360° 全覆盖 3D 标注(相机位姿、深度图、点云、3D 高斯泼溅重建、文本描述),在多个 3D 学习任务上训练效果显著优于 MVImgNet 和 CO3Dv2。
研究背景与动机¶
领域现状:3D 深度学习和 3D 生成 AI 的快速发展依赖于高质量的 3D 训练数据。目前主流的物体中心 3D 数据集包括 CO3Dv2(约 37K 序列、51 个类别)和 MVImgNet(约 220K 序列、238 个类别),它们主要由众包拍摄的多视角视频构成。
现有痛点:(1) 类别多样性不足——CO3Dv2 仅有 51 个日常物品类别,MVImgNet 扩展到 238 个,但仍远不能覆盖现实世界中的长尾物体(如传统乐器、古董、handcraft 等);(2) 视角覆盖不完整——大多数众包视频只拍摄了物体的正面或侧面(约 180°-270°),缺乏完整的 360° 覆盖,导致背面信息缺失;(3) 质量参差不齐——众包数据中存在大量运动模糊、对焦不清、背景杂乱的低质量样本。
核心矛盾:3D 学习模型(如新视角合成、3D 重建、text-to-3D 生成)需要高多样性、高覆盖度、高质量的训练数据,但大规模众包采集与质量控制之间存在内在矛盾——放松质量标准可以获得更多数据,但会引入大量噪声样本;严格质量控制则限制了数据规模。
本文目标:构建一个同时满足高多样性(1000+ 类别)、高覆盖度(360° 全覆盖)、高质量(严格质控)的物体中心 3D 数据集,并提供丰富的标注(相机位姿、深度、点云、高斯泼溅、文本描述)。
切入角度:作者通过精心设计的采集协议(要求拍摄者必须环绕物体一周以上)和多层级质量检查流程(自动化+人工审核),在保持大规模的同时确保数据质量。同时引入 VGGSfM 作为更先进的 SfM 工具来提升 3D 标注质量。
核心 idea:通过精细化的采集协议+多级质量控制+先进的 3D 重建工具,突破"数据规模-数据质量"的trade-off,构建具有全面标注的大规模 3D 数据集。
方法详解¶
整体框架¶
uCO3D 的构建分为四个阶段:(1) 数据采集——设计采集协议并众包收集高分辨率物体视频;(2) 质量控制——多层级自动化和人工审核过滤低质量样本;(3) 3D 标注——使用 VGGSfM 估计相机位姿和稀疏点云,使用单目深度估计生成深度图;(4) 增值标注——为每个物体生成 3D 高斯泼溅重建和 VLM 生成的文本描述。最终数据集提供统一的 PyTorch 数据加载接口。
关键设计¶
-
360° 覆盖采集协议:
- 功能:确保每个物体视频覆盖完整的 360° 视角
- 核心思路:采集协议要求拍摄者将物体放置在纯净背景上,手持手机围绕物体至少旋转一整圈(>360°),保持稳定的距离和速度。采集 App 实时显示覆盖度指示器,提醒拍摄者补齐缺失角度。每个视频至少包含 200 帧、分辨率≥1080p。采集后自动检查视角覆盖度——通过估计相机轨迹的方位角范围,过滤覆盖不足 300° 的视频。
- 设计动机:360° 覆盖对于 3D 重建和新视角合成至关重要,但却是现有数据集的主要短板。CO3Dv2 中许多序列只覆盖 90-180° 弧度,导致模型无法学到物体背面的外观。
-
多层级质量控制流水线:
- 功能:系统性过滤低质量样本,确保数据集整体质量
- 核心思路:质控分为四级:(Level 1) 自动化帧级检查——检测运动模糊(Laplacian 方差阈值)、曝光异常(直方图分析)和对焦质量。(Level 2) 序列级检查——验证 SfM 收敛性、相机轨迹连续性和重建点数量,过滤 SfM 失败的序列。(Level 3) 3D 一致性检查——通过重投影误差和多视角一致性评分来筛除 3D 标注质量差的序列。(Level 4) 人工审核——专业标注员对通过自动检查的样本进行最终审核,检查物体中心性、背景干净度等美学标准。每一级都有明确的拒绝率统计。
- 设计动机:单一级别的质控难以兼顾所有质量维度。层级化设计让廉价的自动检查先过滤掉大部分低质量样本(~60%),只有~40%进入昂贵的人工审核环节,平衡了质量和成本。
-
3D 高斯泼溅重建与文本描述:
- 功能:为每个物体提供 3D Gaussian Splatting 重建和语言描述,丰富数据集的标注维度
- 核心思路:对于每个通过质控的物体序列,使用 3DGS(3D Gaussian Splatting)算法生成高质量的 3D 重建。初始化使用 VGGSfM 输出的稀疏点云,然后通过多视角光度一致性进行优化。每个重建的高斯泼溅数据包含位置、协方差、颜色、不透明度等参数。同时,使用 VLM(视觉语言模型)对每个物体的多个视角生成文本描述(caption),经过筛选和去重后保留最准确的一条。
- 设计动机:3DGS 重建为新视角合成和 3D 生成提供了直接可用的 GT 重建结果,省去了下游用户自行重建的步骤。文本描述则使数据集能直接支持 text-to-3D 等生成任务。
损失函数 / 训练策略¶
uCO3D 本身是数据集工作,不涉及新的训练损失。论文中用 uCO3D 训练了多个下游模型进行验证:(1) Instant3D-like text-to-3D 模型;(2) DUSt3R/MASt3R 稠密 3D 重建模型;(3) 标准新视角合成模型。所有模型使用各自标准的训练配置。
实验关键数据¶
数据集对比¶
| 数据集 | 序列数 | 类别数 | 360° 覆盖 | 3DGS 重建 | 文本描述 | 平均分辨率 |
|---|---|---|---|---|---|---|
| CO3Dv2 | 37K | 51 | ✗ | ✗ | ✗ | 640p |
| MVImgNet | 220K | 238 | ✗ | ✗ | ✗ | 512p |
| uCO3D | ~50K | 1,000+ | ✓ | ✓ | ✓ | 1080p |
下游任务实验¶
| 任务 | 训练数据 | 指标 | CO3Dv2 | MVImgNet | uCO3D |
|---|---|---|---|---|---|
| 新视角合成 (NVS) | 全部 | PSNR ↑ | 24.3 | 25.1 | 27.2 |
| 新视角合成 (NVS) | 全部 | SSIM ↑ | 0.832 | 0.851 | 0.889 |
| 新视角合成 (NVS) | 全部 | LPIPS ↓ | 0.142 | 0.128 | 0.095 |
| 稠密3D重建 | 全部 | Chamfer-L1 ↓ | 0.058 | 0.051 | 0.039 |
| Text-to-3D | 全部 | FID ↓ | - | - | 42.3 |
| Text-to-3D | 全部 | CLIP Score ↑ | - | - | 0.312 |
消融实验:数据质量的影响¶
| 配置 | NVS PSNR ↑ | NVS LPIPS ↓ | 3D重建 Chamfer ↓ | 说明 |
|---|---|---|---|---|
| uCO3D 完整 | 27.2 | 0.095 | 0.039 | 质控后的完整数据集 |
| w/o Level 4 人工审核 | 26.5 | 0.108 | 0.043 | 包含部分低美学质量样本 |
| w/o Level 3 3D一致性检查 | 25.8 | 0.121 | 0.051 | 3D标注噪声增大 |
| w/o 360° 覆盖过滤 | 25.1 | 0.134 | 0.055 | 缺失背面信息导致NVS退化 |
| 仅自动质控 (Level 1-2) | 24.9 | 0.138 | 0.057 | 质量接近 MVImgNet |
关键发现¶
- 数据质量>数据数量:uCO3D 的序列数远少于 MVImgNet(~50K vs 220K),但在所有下游任务上全面超越,证明精细的质控和 360° 覆盖比单纯堆量更有价值
- 360° 覆盖是最关键因素:去掉覆盖过滤后 PSNR 从 27.2 降到 25.1(-2.1dB),在所有消融中影响最大,说明视角完整性对 3D 学习至关重要
- 多层级质控缺一不可:每去掉一层质控都有明显性能下降,Level 3(3D一致性)和 Level 4(人工审核)合计贡献约 1.4dB PSNR 提升
- uCO3D 是首个可直接支持 text-to-3D 训练的真实物体数据集(因为同时提供 3D 重建和文本描述)
亮点与洞察¶
- "先做到高质量再做大规模"的数据集建设理念相对于当前"先堆量再筛选"的主流做法是一种有价值的反思。在采集端就控制质量(如 360° 覆盖指示器)比后期筛选更高效
- 增值标注(3DGS + caption)大幅拓展了数据集的适用范围:不仅可用于传统的 NVS 和 3D 重建,还直接支持 text-to-3D 生成等前沿任务。这种"一次采集、多种标注"的范式值得推广
- VGGSfM 的引入表明 SfM 工具的进步直接提升了 3D 数据集的标注质量,数据集论文不仅关注采集,也应关注标注工具链的选择和更新
局限与展望¶
- 数据集主要聚焦于刚性物体,可变形物体(如布料、液体)和大型场景(如建筑、车辆)未被覆盖
- 虽然有 1000+ 类别,但长尾类别的每类样本数可能不足以单独训练
- 文本描述由 VLM 自动生成,可能存在不准确或过于笼统的问题
- 采集成本较高——360° 覆盖要求和多级质控给众包带来了额外负担
- 数据集的持续维护和扩展机制尚不明确
相关工作与启发¶
- vs CO3Dv2: CO3Dv2 是 Meta 的前代数据集(51 类、无 360° 保证),uCO3D 在类别数(20x)、视角覆盖和标注丰富度上全面升级
- vs MVImgNet: MVImgNet 更大但质量参差且无 360° 覆盖,uCO3D 以更少的数据实现更好的下游性能,体现了质量优先的价值
- vs Objaverse: Objaverse 提供合成 3D 模型,uCO3D 提供真实世界物体的多视角视频和 3D 标注,两者互补
评分¶
- 新颖性: ⭐⭐⭐ 本质是数据集工程工作而非方法创新,但在规模和质量上实现了突破
- 实验充分度: ⭐⭐⭐⭐ 三个下游任务验证、数据质量消融全面,对比公平
- 写作质量: ⭐⭐⭐⭐ 数据集论文标准写法,采集流程和质控细节描述清晰
- 价值: ⭐⭐⭐⭐⭐ 作为3D领域的公开基础数据集,对整个社区有长期价值
相关论文¶
- [CVPR 2025] PICO: Reconstructing 3D People In Contact with Objects
- [CVPR 2025] Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects
- [CVPR 2025] Instant3dit: Multiview Inpainting for Fast Editing of 3D Objects
- [CVPR 2025] RigGS: Rigging of 3D Gaussians for Modeling Articulated Objects in Videos
- [CVPR 2025] IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments