跳转至

3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds

会议: CVPR 2026
arXiv: 2512.23042
代码: https://github.com/ryosuke-yamada/lam3c (有)
领域: 3D视觉 / 自监督学习
关键词: 3D自监督学习, 视频生成点云, Sinkhorn-Knopp聚类, 噪声正则化, 室内场景理解

一句话总结

提出LAM3C框架,首次证明从无标注网络视频(房产导览等)重建的视频生成点云(VGPC)可替代真实3D扫描进行3D自监督预训练,通过拉普拉斯平滑损失和噪声一致性损失稳定噪声点云上的表示学习,配合自建RoomTours数据集(49K场景)在室内语义和实例分割上匹配甚至超越使用真实扫描的方法。

研究背景与动机

领域现状:2D视觉基础模型(DINOv2等)受益于海量无标注图像(17亿+)取得了显著成功,但3D数据受限于3D扫描的高昂设备和人工成本——目前最大的室内场景数据集仅约5K个独特场景。

现有痛点:即使Sonata等最先进的3D-SSL方法混合真实和合成数据,训练规模也仅~140K样本(其中真实3D扫描仅18K)。这种有限的数据规模使3D-SSL无法达到2D视觉同等的成功水平。数据瓶颈是3D自监督学习进步的根本限制。

核心矛盾:3D场景数据稀缺且获取昂贵 vs 3D-SSL需要大规模数据才能像2D-SSL一样成功。

关键观察:YouTube等平台上有海量的室内导览视频(房产广告、公寓展示)。近期前馈式3D重建模型(如π³和VGGT)可从多视图图像直接推断3D结构,质量可媲美传统SfM/MVS方法。

核心idea:(1) 从网络视频重建大规模视频生成点云(VGPC)数据集RoomTours(49K场景)——完全不使用真实3D扫描;(2) 设计噪声正则化的聚类预训练框架LAM3C——使在不完美/噪声点云上的表示学习变得可行且稳定。

方法详解

整体框架

YouTube视频收集(3462支+RealEstate10k) → CLIP零样本场景分类和分段(indoor/outdoor→living/bedroom/bathroom) → π³前馈3D重建(200-400帧/场景) → 置信度掩码+离群点过滤+后处理 → RoomTours数据集(49,219个VGPC场景) → LAM3C教师-学生预训练(Sinkhorn-Knopp聚类+拉普拉斯平滑+噪声一致性) → PTv3 backbone下游微调/线性探测。

关键设计

  1. RoomTours数据集构建:

    • 功能:从无标注网络视频构建大规模3D点云预训练数据集
    • 视频收集:搜索多城市关键词("city, real-estate, walk-through")→手动选频道→自动过滤(时长、元数据排除CG/drone/short)→3,462支视频 + RealEstate10k + YouTube House Tours + HouseTours
    • 场景分段:CLIP逐帧零样本分类(indoor/outdoor)→室内帧按场景类型(living/bedroom/bathroom)检测边界→分段。0.5秒时间一致性平滑
    • VGPC生成:π³前馈重建,均匀采样→单精度混合前向传播→置信度掩码+边缘抑制+离群点移除→带颜色的3D点云
    • 产出:49,219个VGPC场景,平均~5分钟/场景。视觉上接近真实扫描但含噪声(相机抖动区域模糊、墙壁/地板可能出现重叠)和缺失区域
  2. LAM3C预训练框架:

    • 基础聚类损失:教师-学生架构(EMA更新教师)。三部分组合:\(\mathcal{L}_{clustering} = w_u\mathcal{L}_{unmask} + w_m\mathcal{L}_{mask} + w_r\mathcal{L}_{roll}\)。unmask对齐学生局部→教师全局特征(kNN匹配);mask从教师全局蒸馏到学生掩码全局;roll-mask交换全局视图保证跨视图一致性。权重4:2:2
    • 拉普拉斯平滑损失(核心正则化1):在VGPC上构建kNN图,对每条边计算距离加权 \(w_{ij} = \exp(-\|p_i-p_j\|^2/\sigma^2)\)\(\sigma\)自适应为kNN距离中位数),鼓励空间邻近点产生相似嵌入:\(R_{Lap} = \sum_{(i,j)\in E} w_{ij}\|z_i-z_j\|^2\)。远距离邻居被截断以增强鲁棒性。实际用Huber惩罚替代L2。这一损失沿局部几何平滑特征——噪声点由于权重小而影响减弱
    • 噪声一致性损失(核心正则化2):同一VGPC的两个增强视图 \(x^{(a)}, x^{(b)}\) 分别输入EMA教师和学生:\(R_{cons} = \frac{1}{|\mathcal{P}|}\sum_{(i,j)\in\mathcal{P}}\|g_{EMA}(x^{(a)})_j - f_\theta(x^{(b)})_i\|^2\),其中 \(\mathcal{P}\) 是kNN对应点集。确保相同点在不同噪声视图下保持一致嵌入
    • 总目标\(\mathcal{L}_{total} = \mathcal{L}_{clustering} + \lambda R_{Lap} + \mu R_{cons}\)
    • 调度\(\lambda\)从2e-4线性增至3e-3(逐步增强正则化),\(\mu\)固定0.05
  3. 设计动机:

    • VGPC的噪声和缺失区域使标准聚类学习不稳定(点级嵌入剧烈波动)
    • 拉普拉斯平滑稳定局部特征(空间邻近点嵌入一致)
    • 噪声一致性稳定全局表示(跨视图嵌入一致)
    • 两者互补:前者利用局部几何关系、后者利用全局场景一致性
    • 损失不依赖手工室内先验——仅利用点间关系结构

损失函数 / 训练策略

PTv3 (Base/Large) backbone。预训练最长437K步。使用masked global-view和unmasked local-view的多级聚类。

实验关键数据

主实验(室内语义分割mIoU,PTv3 Base, 100 epochs)

方法 预训练数据 ScanNet LP ScanNet FT ScanNet200 FT S3DIS FT
PTv3 (无预训练) - 16.1 74.7 32.0 67.8
MSC 真实7K 21.8 78.2 33.4 69.9
Sonata (仅真实15K) 真实15K 69.4 78.5 35.3 75.2
Sonata (全部) 真实18K+合成121K 72.5 79.4 36.8 76.0
LAM3C (16K VGPC) 零真实 58.9 75.6 32.8 71.9
LAM3C (49K VGPC) 零真实 66.0 77.7 35.1 72.9
LAM3C* (49K, Large) 零真实 69.5 79.5 35.9 75.5

LAM3C(PTv3 Large+437K步)不使用任何真实3D扫描即在ScanNet FT上达79.5%,匹配Sonata(18K真实+121K合成)的79.4%*。

实例分割结果

S3DIS实例分割上LAM3C超越仅使用真实扫描训练的Sonata-real。

消融实验(ScanNet LP/FT,PTv3 Base)

配置 ScanNet LP ScanNet FT 说明
仅聚类损失 不稳定 不稳定 VGPC噪声导致学习崩溃
+拉普拉斯平滑 +大幅提升 +提升 局部特征稳定化
+噪声一致性 +进一步提升 +提升 全局表示稳定化
16K VGPC 58.9 75.6 数据规模影响
49K VGPC 66.0 77.7 数据量增3倍→LP提升7 mIoU

关键发现

  • 零真实扫描即可匹配/超越使用真实扫描的方法:这是最核心的发现——VGPC作为3D-SSL的替代数据源不仅可行,而且在规模+模型容量够大时可匹配SOTA
  • 数据规模至关重要:16K→49K VGPC在线性探测上提升7个mIoU——3D-SSL也遵循"数据越多越好"的规律
  • 两个正则化缺一不可:仅聚类损失在VGPC上训练不稳定,拉普拉斯平滑和噪声一致性各自独立贡献且互补
  • ScanNet 10%标注微调下LAM3C性能即超越使用真实扫描训练的方法(图1左验证)
  • 实例分割上LAM3C同样具有竞争力

亮点与洞察

  • "3D无需3D扫描"的范式突破:根本性地改变了3D预训练的数据获取路径。YouTube视频是几乎无限的3D数据源——49K只是开始,100K+甚至更大规模完全可行
  • 噪声正则化的通用设计:拉普拉斯平滑(基于点云局部几何结构)+噪声一致性(基于跨视图全局一致)不依赖室内场景先验,可泛化到任何不完美点云的自监督学习
  • 前馈重建模型的新应用:π³/VGGT等模型原本用于重建本身,LAM3C首次将其输出作为3D-SSL的预训练数据——扩大了重建模型的应用范围
  • 对2D-3D关系的新理解:视频蕴含的3D几何信息足以支撑3D表示学习,这为2D-3D联合预训练提供了新思路

局限与展望

  • VGPC的噪声和缺失区域仍限制性能上界——更好的前馈重建模型(如VGGT的后续版本)可能进一步提升质量
  • RoomTours仅覆盖室内场景——室外场景的VGPC质量可能更差(大尺度、动态物体多、光照变化大)
  • 视频收集依赖YouTube搜索关键词→数据分布可能偏向特定地域和房产类型
  • 更大规模(100K+)的VGPC数据集和更长训练schedule可能释放更多潜力
  • 可探索视频中的时间信息(相邻帧的时间一致性)作为额外预训练信号

相关工作与启发

  • vs Sonata: Sonata依赖真实+合成3D扫描(18K+121K),LAM3C完全不用3D扫描→可扩展性更强。当规模和模型容量足够时性能匹配
  • vs PointContrast/MSC: 早期3D-SSL方法受限于更小数据规模(1K-7K真实扫描)
  • vs PPT: PPT使用合成数据且带监督信号,LAM3C纯自监督
  • vs π³/VGGT重建模型: 这些是3D重建工具,LAM3C首次将重建产物作为3D-SSL预训练数据
  • 启发:多模态(2D视觉+3D几何)联合预训练可能是下一步——视频帧的2D特征和重建的3D结构互补

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "3D无需3D扫描"的范式突破,pipeline完整创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、语义+实例分割、线性探测+微调、数据规模消融、正则化消融
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、pipeline描述完整、可视化直观
  • 价值: ⭐⭐⭐⭐⭐ 解除了3D数据瓶颈,对3D视觉领域有范式影响

相关论文