跳转至

Lifting Unlabeled Internet-level Data for 3D Scene Understanding

会议: CVPR 2026
arXiv: 2604.01907
代码: 项目页面
领域: 3D视觉
关键词: 3D场景理解, 互联网视频, 自动数据引擎, 视觉语言导航, 空间推理

一句话总结

构建SceneVerse++,通过自动化数据引擎从6,687个无标注互联网视频中生成3D场景理解训练数据,在3D目标检测(F1@.25提升20.6)、空间VQA(+14.9%)和视觉语言导航(+14% SR)三个任务上展示了利用互联网级数据推进3D场景理解的可行性。

研究背景与动机

3D场景理解是人类和具身智能的关键能力,涵盖从几何感知(深度估计、目标检测)到语义理解(分割、视觉定位)再到高级推理(空间问答、导航)。深度学习在该领域的成功高度依赖大规模标注的真实3D数据集。

核心矛盾:与2D图像可以从网上轻松获取和标注不同,3D场景数据的采集和标注极其昂贵——需要专用硬件(RGB-D/LiDAR)、3D网格重建、人工密集语义标注。自ScanNet以来,学术界在3D数据规模上几乎没有量级飞跃。而互联网上存在海量未标注的视频数据,它们天然捕获了3D世界。

本文的切入角度:设计自动化数据引擎,将无标注的互联网视频转化为3D场景理解的训练数据。不同于以往将各子模块(重建、分割、语义标注)简单拼接的做法,本文系统分析了自动数据生成的瓶颈,提供了在不同感知粒度任务上规模化端到端模型的指导方针。核心idea:通过精心设计的数据引擎,互联网视频可以成为弥补3D标注数据稀缺、提升端到端模型能力的可行路径。

方法详解

整体框架

从互联网视频出发,构建三阶段数据管线:(1) 视频筛选+运动恢复结构(SfM)获取相机位姿和稀疏3D几何;(2) 模块化重建和分割管线生成密集3D重建和实例标注;(3) 面向不同下游任务(检测/分割、空间VQA、VLN)的数据生成。最终从8,217个视频中获得6,687个场景,包含图像、相机位姿、密集重建、实例分割和高级推理标注。

关键设计

  1. 视频筛选与SfM重建管线:

    • 功能:从原始互联网视频中提取高质量的相机位姿和稀疏3D点云
    • 核心思路:TransNetV2镜头检测 → 过滤低质量/户外/人像内容 → 基于视差而非均匀采样选取关键帧 → 密集像素匹配+全局BA → 空间覆盖和SfM质量检查
    • 设计动机:互联网视频存在大量无关内容,基于视差选帧保证三角化质量;引入优化的伪轨迹像素提高长视频内存效率
  2. 密集重建与实例分割管线:

    • 功能:从稀疏SfM输出获得完整3D网格和实例级标注
    • 核心思路:重建方面,将SfM稀疏点投影到图像平面获取稀疏深度先验,用PriorDA预测密集度量深度,TSDF融合生成水密网格。分割方面,CropFormer获取逐帧分割掩码,通过邻帧视图共识和空间一致性聚合到3D空间,再用VLM生成文本描述和语义标签
    • 设计动机:NeuralRendering方法质量高但逐场景优化太慢;端到端重建方法快但长视频内存受限且几何失真——基于度量深度+SfM的方案在质量和效率间取得平衡(平均每场景71秒重建+96秒分割)
  3. 面向任务的数据生成:

    • 功能:将3D场景转化为特定任务的训练数据
    • 核心思路:3D检测/分割直接使用重建和实例标注;空间VQA通过3D场景图生成模板化QA对(632K条);VLN通过三阶段管线(轨迹预处理→动作编码→指令生成)将room-tour视频的自由探索轨迹转换为R2R风格导航数据
    • 设计动机:VLN的核心挑战在于room-tour视频的不规则运动与R2R基准的目标导向最短路径之间的差距,需要专门的轨迹精炼和动作编码

损失函数 / 训练策略

  • 3D检测:SpatialLM基于MLLM,在SceneVerse++上预训练后在ScanNet上微调
  • 3D分割:Mask3D在SceneVerse++上预训练+ScanNet微调
  • 空间VQA:Qwen2.5-VL-3B/7B使用LoRA微调,训练202K数据
  • VLN:LLaVA-Video作为基础模型,先在SceneVerse++预训练再在R2R微调

实验关键数据

主实验

数据集/任务 指标 本文(SceneVerse++) 对比方法 提升
ScanNet 3D检测 F1@.25 (预训练+微调) 58.6 38.0 (SpatialLM原始) +20.6
ScanNet 3D检测 F1@.25 (零样本) 30.9 29.0 (SpatialLM) +1.9
ARKitScenes 3D检测 F1@.25 (零样本) 35.8 35.1 (SpatialLM) +0.7
ScanNet 3D分割 AP25 (预训练+微调) 38.5 36.1 (从头训练) +2.4
VSI-Bench VQA (3B) Avg Accuracy 42.8 (SV++零样本) 27.9 (基线) +14.9
VSI-Bench VQA (7B) Avg Accuracy 46.4 (SV++零样本) 36.6 (基线) +9.8
R2R VLN SR (预训练+微调) 0.228 0.088 (仅R2R) +0.14

消融实验

配置 关键指标 说明
完整SceneVerse++预训练+R2R微调 SR 0.228 最优策略
混合训练(R2R+SV++) SR 0.188 直接混合不如先预训练再微调
去掉轨迹精炼(w/o TR) SR 0.036→微调0.177 原始轨迹质量差,精炼很关键
去掉指令增强(w/o IE) SR 0.022→微调0.074 语言多样性对性能影响巨大
SV++零样本VQA(ARKit子集) 48.0 (3B) 与SN/SN++有标注训练(49.0)接近

关键发现

  • 在3D检测上,SceneVerse++预训练提供的真实世界分布先验使微调收益巨大(F1@.25从38.0到58.6)
  • 在3D分割上,Mask3D因依赖特定管线的图分割结果,对域迁移敏感,SceneVerse++零样本效果不佳但微调后仍有提升
  • 空间VQA中SceneVerse++在通用空间知识(相对距离、相对方向)上改进最大,在域特定知识(物体数量、房间大小)上较弱——反映了域差距
  • VLN中轨迹精炼和指令增强两个数据质量因素对性能至关重要,原始互联网视频不能直接用
  • 存在明确的过拟合转折点:训练初期所有评估指标均提升,之后域内数据继续涨而域外数据趋于饱和或下降

亮点与洞察

  • 系统性地分析了互联网视频到3D场景理解的全链路瓶颈,而非简单拼凑子模块
  • 覆盖从低级感知(检测/分割)到高级推理(VQA/VLN)三个代表性任务,验证全面
  • 数据规模可观:6,687场景超过ARKitScenes,平均每场景49个目标、21个类别
  • 对模型可扩展性的深入讨论很有价值:依赖预计算分割的模型(Mask3D)比直接操作原始模态的模型(SpatialLM)更难扩展

局限与展望

  • 依赖多个子模块(SfM、深度估计、分割、VLM标注)组合,各模块的误差会级联传播
  • 视频筛选中仍需少量人工标注(<10秒/场景)来保证数据质量
  • 3D分割任务展示了域特定偏差对模型扩展的限制——需要更鲁棒的模型架构
  • 互联网视频主要是室内room-tour类型,对室外/动态场景的覆盖有限
  • 自动数据生成管线中各子模块多在小规模任务特定基准上训练,泛化能力有限

相关工作与启发

  • vs ScanNet/ScanNet++: 人工采集的高质量3D数据集,但规模受限(ScanNet ~1.5k场景);SceneVerse++通过自动化从互联网获取6.7k场景,数据量级更大但质量需要权衡
  • vs RoomTour3D/NaVILA: 同样利用互联网视频,但局限于导航单一任务;SceneVerse++覆盖检测/分割/VQA/VLN全面任务
  • vs Miao et al.: 使用2D单视图数据集+估计深度生成3D标注,但受限于已有2D数据集且只能做单帧级处理
  • 启发: 子模块开发应以"支持鲁棒的野外3D理解"为目标,不仅评估任务特定性能,还要衡量对自动化数据生成管线的贡献

评分

  • 新颖性: ⭐⭐⭐⭐ 系统性利用互联网视频进行全面3D场景理解的思路有创新,对瓶颈的分析有深度
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个任务、多种训练策略对比、详细消融和训练动态分析
  • 写作质量: ⭐⭐⭐⭐ 层次清晰,讨论深入,对数据引擎的局限性有坦诚分析
  • 价值: ⭐⭐⭐⭐⭐ 为3D场景理解的数据扩展提供了系统性路线图和实践指南

相关论文